Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.

PDF

Zapisane w:

Opis bibliograficzny
1. autor:	Castro Martínez, Christian David (author)
Kolejni autorzy:	Proaño Indacochea, Alexis Gerardo (author)
Format:	bachelorThesis
Język:	spa
Wydane:	2022
Hasła przedmiotowe:	Machine Learning Estilometría Autoría Métricas de evaluación Métodos clasificadores Validación cruzada Stylometry Authorship Evaluation metrics Classifier methods Cross-validation
Dostęp online:	http://repositorio.ug.edu.ec/handle/redug/65270
Etykiety:	Dodaj etykietę Nie ma etykietki, Dołącz pierwszą etykiete!

_version_	1858987832227397632
author	Castro Martínez, Christian David
author2	Proaño Indacochea, Alexis Gerardo
author2_role	author
author_facet	Castro Martínez, Christian David Proaño Indacochea, Alexis Gerardo
author_role	author
collection	Repositorio Universidad de Guayaquil
dc.contributor.none.fl_str_mv	Espín Riofrio, Cesar
dc.creator.none.fl_str_mv	Castro Martínez, Christian David Proaño Indacochea, Alexis Gerardo
dc.date.none.fl_str_mv	2022-12-08T20:46:58Z 2022-12-08T20:46:58Z 2022-10-03
dc.format.none.fl_str_mv	application/pdf
dc.identifier.none.fl_str_mv	http://repositorio.ug.edu.ec/handle/redug/65270
dc.language.none.fl_str_mv	spa
dc.publisher.none.fl_str_mv	Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv	reponame:Repositorio Universidad de Guayaquil instname:Universidad de Guayaquil instacron:UG
dc.subject.none.fl_str_mv	Machine Learning Estilometría Autoría Métricas de evaluación Métodos clasificadores Validación cruzada Stylometry Authorship Evaluation metrics Classifier methods Cross-validation
dc.title.none.fl_str_mv	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
dc.type.none.fl_str_mv	info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/bachelorThesis
description	PDF
eu_rights_str_mv	openAccess
format	bachelorThesis
id	UG_b6d00a049f909e71055c2ed4405b4989
instacron_str	UG
institution	UG
instname_str	Universidad de Guayaquil
language	spa
network_acronym_str	UG
network_name_str	Repositorio Universidad de Guayaquil
oai_identifier_str	oai:repositorio.ug.edu.ec:redug/65270
publishDate	2022
publisher.none.fl_str_mv	Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
reponame_str	Repositorio Universidad de Guayaquil
repository.mail.fl_str_mv	.
repository.name.fl_str_mv	Repositorio Universidad de Guayaquil - Universidad de Guayaquil
repository_id_str	0
spelling	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.Castro Martínez, Christian DavidProaño Indacochea, Alexis GerardoMachine LearningEstilometríaAutoríaMétricas de evaluaciónMétodos clasificadoresValidación cruzadaStylometryAuthorshipEvaluation metricsClassifier methodsCross-validationPDFLa investigación está enfocada en determinar la autoría de textos en el idioma español, se usará un data set de las campañas PAN 2015, en el cual, se analizará un corpus aproximado de 500 documentos de texto de 100 autores, para determinar las palabras de uso frecuente del idioma español se usó “El Corpus de Referencia del Español Actual” (CREA), el cual es validado por la Real Academia Española de la Lengua, también se utilizará una biblioteca para estilometría, que nos ayudará a extraer varias características estilométricas y calcular las distancias que existen entre las palabras, luego se procede a entrenar y evaluar varios métodos clasificadores. Para lograrlo, se establecerá el estado del arte de la estilometría y métodos clasificadores, mediante la investigación de contribuciones científicas se determinará las técnicas de machine learning y análisis estilométrico, entrenando métodos clasificadores potenciados con validación cruzada utilizando estas características, se evalúa cada clasificador utilizando métricas de evaluación. Los resultados obtenidos según la métrica F1 del Multilayer Perceptron, Gradient Boost y el Decision Tree fueron 0.8840, 0.8622 y 0.8166 de precisión respectivamente, evidenciando que el método con el mejor resultado es el Multilayer Perceptron, también se determina que al experimentar con 400 palabras se obtienen mejores resultados, superando esta cantidad de palabras los resultados empiezan a decaer. Concluyendo que es posible determinar la autoría de textos en idioma español realizando las adaptaciones necesarias usando el análisis estilométrico y el uso de validación cruzada.Our research is focused on determining the authorship of texts in the Spanish language, we will use a data set of the PAN 2015 campaigns, in which, we will analyze a corpus of approximately 500 text documents of 100 authors, to determine the frequently used words of the Spanish language we used "El Corpus de Referencia del Español Actual" (CREA), which is validated by the Real Academia Española de la Lengua, a library for stylometry will also be used, which will help us to extract several stylometric characteristics and calculate the distances that exist between words, then we proceed to train and evaluate several classifier methods. To achieve this, we will establish the state of the art of stylometry and classifier methods, by researching scientific contributions we will determine the techniques of machine learning and stylometric analysis, training powered classifier methods with cross-validation using these features, each classifier is evaluated using evaluation metrics. The results obtained according to the F1 metric of the Multilayer Perceptron, Gradient Boost and the Decision Tree were 0.8840, 0.8622 and 0.8166 of accuracy respectively, showing that the method with the best result is the Multilayer Perceptron, it is also determined that when experimenting with 400 words better results are obtained, exceeding this number of words the results begin to decline. In conclusion, it is possible to determine the authorship of Spanish texts by making the necessary adaptations using stylometric analysis and the use of cross-validation.Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.Espín Riofrio, Cesar2022-12-08T20:46:58Z2022-12-08T20:46:58Z2022-10-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://repositorio.ug.edu.ec/handle/redug/65270spainfo:eu-repo/semantics/openAccessreponame:Repositorio Universidad de Guayaquilinstname:Universidad de Guayaquilinstacron:UG2022-12-09T09:27:38Zoai:repositorio.ug.edu.ec:redug/65270Institucionalhttp://repositorio.ug.edu.ec/Universidad públicahttps://www.ug.edu.ec/..Ecuador...opendoar:02026-03-07T06:51:38.444501Repositorio Universidad de Guayaquil - Universidad de Guayaquiltrue
spellingShingle	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning. Castro Martínez, Christian David Machine Learning Estilometría Autoría Métricas de evaluación Métodos clasificadores Validación cruzada Stylometry Authorship Evaluation metrics Classifier methods Cross-validation
status_str	publishedVersion
title	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_full	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_fullStr	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_full_unstemmed	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_short	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
title_sort	Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.
topic	Machine Learning Estilometría Autoría Métricas de evaluación Métodos clasificadores Validación cruzada Stylometry Authorship Evaluation metrics Classifier methods Cross-validation
url	http://repositorio.ug.edu.ec/handle/redug/65270

Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.

Podobne zapisy