Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.

PDF

Zapisane w:
Opis bibliograficzny
1. autor: Castro Martínez, Christian David (author)
Kolejni autorzy: Proaño Indacochea, Alexis Gerardo (author)
Format: bachelorThesis
Język:spa
Wydane: 2022
Hasła przedmiotowe:
Dostęp online:http://repositorio.ug.edu.ec/handle/redug/65270
Etykiety: Dodaj etykietę
Nie ma etykietki, Dołącz pierwszą etykiete!
_version_ 1858987832227397632
author Castro Martínez, Christian David
author2 Proaño Indacochea, Alexis Gerardo
author2_role author
author_facet Castro Martínez, Christian David
Proaño Indacochea, Alexis Gerardo
author_role author
collection Repositorio Universidad de Guayaquil
dc.contributor.none.fl_str_mv Espín Riofrio, Cesar
dc.creator.none.fl_str_mv Castro Martínez, Christian David
Proaño Indacochea, Alexis Gerardo
dc.date.none.fl_str_mv 2022-12-08T20:46:58Z
2022-12-08T20:46:58Z
2022-10-03
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv http://repositorio.ug.edu.ec/handle/redug/65270
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Universidad de Guayaquil
instname:Universidad de Guayaquil
instacron:UG
dc.subject.none.fl_str_mv Machine Learning
Estilometría
Autoría
Métricas de evaluación
Métodos clasificadores
Validación cruzada
Stylometry
Authorship
Evaluation metrics
Classifier methods
Cross-validation
dc.title.none.fl_str_mv Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description PDF
eu_rights_str_mv openAccess
format bachelorThesis
id UG_b6d00a049f909e71055c2ed4405b4989
instacron_str UG
institution UG
instname_str Universidad de Guayaquil
language spa
network_acronym_str UG
network_name_str Repositorio Universidad de Guayaquil
oai_identifier_str oai:repositorio.ug.edu.ec:redug/65270
publishDate 2022
publisher.none.fl_str_mv Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
reponame_str Repositorio Universidad de Guayaquil
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Universidad de Guayaquil - Universidad de Guayaquil
repository_id_str 0
spelling Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.Castro Martínez, Christian DavidProaño Indacochea, Alexis GerardoMachine LearningEstilometríaAutoríaMétricas de evaluaciónMétodos clasificadoresValidación cruzadaStylometryAuthorshipEvaluation metricsClassifier methodsCross-validationPDFLa investigación está enfocada en determinar la autoría de textos en el idioma español, se usará un data set de las campañas PAN 2015, en el cual, se analizará un corpus aproximado de 500 documentos de texto de 100 autores, para determinar las palabras de uso frecuente del idioma español se usó “El Corpus de Referencia del Español Actual” (CREA), el cual es validado por la Real Academia Española de la Lengua, también se utilizará una biblioteca para estilometría, que nos ayudará a extraer varias características estilométricas y calcular las distancias que existen entre las palabras, luego se procede a entrenar y evaluar varios métodos clasificadores. Para lograrlo, se establecerá el estado del arte de la estilometría y métodos clasificadores, mediante la investigación de contribuciones científicas se determinará las técnicas de machine learning y análisis estilométrico, entrenando métodos clasificadores potenciados con validación cruzada utilizando estas características, se evalúa cada clasificador utilizando métricas de evaluación. Los resultados obtenidos según la métrica F1 del Multilayer Perceptron, Gradient Boost y el Decision Tree fueron 0.8840, 0.8622 y 0.8166 de precisión respectivamente, evidenciando que el método con el mejor resultado es el Multilayer Perceptron, también se determina que al experimentar con 400 palabras se obtienen mejores resultados, superando esta cantidad de palabras los resultados empiezan a decaer. Concluyendo que es posible determinar la autoría de textos en idioma español realizando las adaptaciones necesarias usando el análisis estilométrico y el uso de validación cruzada.Our research is focused on determining the authorship of texts in the Spanish language, we will use a data set of the PAN 2015 campaigns, in which, we will analyze a corpus of approximately 500 text documents of 100 authors, to determine the frequently used words of the Spanish language we used "El Corpus de Referencia del Español Actual" (CREA), which is validated by the Real Academia Española de la Lengua, a library for stylometry will also be used, which will help us to extract several stylometric characteristics and calculate the distances that exist between words, then we proceed to train and evaluate several classifier methods. To achieve this, we will establish the state of the art of stylometry and classifier methods, by researching scientific contributions we will determine the techniques of machine learning and stylometric analysis, training powered classifier methods with cross-validation using these features, each classifier is evaluated using evaluation metrics. The results obtained according to the F1 metric of the Multilayer Perceptron, Gradient Boost and the Decision Tree were 0.8840, 0.8622 and 0.8166 of accuracy respectively, showing that the method with the best result is the Multilayer Perceptron, it is also determined that when experimenting with 400 words better results are obtained, exceeding this number of words the results begin to decline. In conclusion, it is possible to determine the authorship of Spanish texts by making the necessary adaptations using stylometric analysis and the use of cross-validation.Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.Espín Riofrio, Cesar2022-12-08T20:46:58Z2022-12-08T20:46:58Z2022-10-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://repositorio.ug.edu.ec/handle/redug/65270spainfo:eu-repo/semantics/openAccessreponame:Repositorio Universidad de Guayaquilinstname:Universidad de Guayaquilinstacron:UG2022-12-09T09:27:38Zoai:repositorio.ug.edu.ec:redug/65270Institucionalhttp://repositorio.ug.edu.ec/Universidad públicahttps://www.ug.edu.ec/..Ecuador...opendoar:02026-03-07T06:51:38.444501Repositorio Universidad de Guayaquil - Universidad de Guayaquiltrue
spellingShingle Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
Castro Martínez, Christian David
Machine Learning
Estilometría
Autoría
Métricas de evaluación
Métodos clasificadores
Validación cruzada
Stylometry
Authorship
Evaluation metrics
Classifier methods
Cross-validation
status_str publishedVersion
title Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_full Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_fullStr Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_full_unstemmed Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_short Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_sort Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
topic Machine Learning
Estilometría
Autoría
Métricas de evaluación
Métodos clasificadores
Validación cruzada
Stylometry
Authorship
Evaluation metrics
Classifier methods
Cross-validation
url http://repositorio.ug.edu.ec/handle/redug/65270