Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA
The web platform called ECUCIENCIA belonging to the Technical University of Cotopaxi stores the scientific production of the research teachers, this system shows some metrics for the articles considering only the title, summary and keywords, being insufficient if we analyze the richness of all the c...
-д хадгалсан:
| Үндсэн зохиолч: | |
|---|---|
| Формат: | masterThesis |
| Хэл сонгох: | spa |
| Хэвлэсэн: |
2020
|
| Нөхцлүүд: | |
| Онлайн хандалт: | http://repositorio.utc.edu.ec/handle/27000/7234 |
| Шошгууд: |
Шошго нэмэх
Шошго байхгүй, Энэхүү баримтыг шошголох эхний хүн болох!
|
| _version_ | 1863503480045436928 |
|---|---|
| author | Corrales Beltrán, Segundo Humberto |
| author_facet | Corrales Beltrán, Segundo Humberto |
| author_role | author |
| collection | Repositorio Universidad Técnica de Cotopaxi |
| dc.contributor.none.fl_str_mv | Rodríguez Bárcenas, Gustavo PhD. |
| dc.creator.none.fl_str_mv | Corrales Beltrán, Segundo Humberto |
| dc.date.none.fl_str_mv | 2020 2021-04-09T00:30:50Z 2021-04-09T00:30:50Z |
| dc.format.none.fl_str_mv | 91 páginas application/pdf |
| dc.identifier.none.fl_str_mv | Segundo Humberto Corrales Beltrán (2020) Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA UTC. Latacunga. 91 p. MUTC-000722 http://repositorio.utc.edu.ec/handle/27000/7234 |
| dc.language.none.fl_str_mv | spa |
| dc.publisher.none.fl_str_mv | Ecuador: Latacunga: Universidad Técnica de Cotopaxi: UTC |
| dc.rights.none.fl_str_mv | http://creativecommons.org/licenses/by-nc-sa/3.0/ec/ info:eu-repo/semantics/openAccess |
| dc.source.none.fl_str_mv | reponame:Repositorio Universidad Técnica de Cotopaxi instname:Universidad Técnica de Cotopaxi instacron:UTC |
| dc.subject.none.fl_str_mv | ANÁLISIS DE INFORMACIÓN CORPUS ARTÍCULOS CIENTÍFICOS SISTEMAS DE INFORMACIÓN |
| dc.title.none.fl_str_mv | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| dc.type.none.fl_str_mv | info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis |
| description | The web platform called ECUCIENCIA belonging to the Technical University of Cotopaxi stores the scientific production of the research teachers, this system shows some metrics for the articles considering only the title, summary and keywords, being insufficient if we analyze the richness of all the content of the document in PDF format; relevant information related to research lines and other scientific documents could be extracted from the frequency of the words in each document, to solve this problem, a method of analysis of information was established in corpus of scientific articles, using data processing algorithms found in the NLTK, NUMPY, MATPLOTLIB, PYPDF2, SKLEARN and SCIPY libraries of Python. The Scrum methodology was used for module development and the results were validated through statistical methods. Data was obtained from a simple random sampling and the analysis of the information contained in the corpus of scientific articles of the selected sample, being able to obtain relevant information and visualization of significant data of Euclidean distances, Correlation, Chebychev, Cosine, Jaccard Coefficient and Dice Index were obtained. The validation of the results through the analysis of the variance of a factor yielded the value of F = 17.621 being higher than the critical value for F which was 2.412 and the probability less than 0.05 demonstrating that the frequency variables of the articles behave significantly in the process of representing metrics according to the articles' corpus. |
| eu_rights_str_mv | openAccess |
| format | masterThesis |
| id | UTC_e9fa0ece7674a670c9eaf64a22e3cf54 |
| identifier_str_mv | Segundo Humberto Corrales Beltrán (2020) Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA UTC. Latacunga. 91 p. MUTC-000722 |
| instacron_str | UTC |
| institution | UTC |
| instname_str | Universidad Técnica de Cotopaxi |
| language | spa |
| network_acronym_str | UTC |
| network_name_str | Repositorio Universidad Técnica de Cotopaxi |
| oai_identifier_str | oai:repositorio.utc.edu.ec:27000/7234 |
| publishDate | 2020 |
| publisher.none.fl_str_mv | Ecuador: Latacunga: Universidad Técnica de Cotopaxi: UTC |
| reponame_str | Repositorio Universidad Técnica de Cotopaxi |
| repository.mail.fl_str_mv | . |
| repository.name.fl_str_mv | Repositorio Universidad Técnica de Cotopaxi - Universidad Técnica de Cotopaxi |
| repository_id_str | 0 |
| rights_invalid_str_mv | http://creativecommons.org/licenses/by-nc-sa/3.0/ec/ |
| spelling | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIACorrales Beltrán, Segundo HumbertoANÁLISIS DE INFORMACIÓNCORPUSARTÍCULOS CIENTÍFICOSSISTEMAS DE INFORMACIÓNThe web platform called ECUCIENCIA belonging to the Technical University of Cotopaxi stores the scientific production of the research teachers, this system shows some metrics for the articles considering only the title, summary and keywords, being insufficient if we analyze the richness of all the content of the document in PDF format; relevant information related to research lines and other scientific documents could be extracted from the frequency of the words in each document, to solve this problem, a method of analysis of information was established in corpus of scientific articles, using data processing algorithms found in the NLTK, NUMPY, MATPLOTLIB, PYPDF2, SKLEARN and SCIPY libraries of Python. The Scrum methodology was used for module development and the results were validated through statistical methods. Data was obtained from a simple random sampling and the analysis of the information contained in the corpus of scientific articles of the selected sample, being able to obtain relevant information and visualization of significant data of Euclidean distances, Correlation, Chebychev, Cosine, Jaccard Coefficient and Dice Index were obtained. The validation of the results through the analysis of the variance of a factor yielded the value of F = 17.621 being higher than the critical value for F which was 2.412 and the probability less than 0.05 demonstrating that the frequency variables of the articles behave significantly in the process of representing metrics according to the articles' corpus.La plataforma web denominada ECUCIENCIA perteneciente a la Universidad Técnica de Cotopaxi almacena la producción científica de los docentes investigadores, este sistema muestra algunas métricas para los artículos considerando para ello solo el título, resumen y palabras claves, siendo insuficiente si analizamos la riqueza de todo el contenido del documento en formato PDF; se podría extraer información relevante relacionada con las líneas de investigación y otros documentos científicos a partir de la frecuencia de las palabras en cada documento, para solventar esta problemática se estableció un método de análisis de información en corpus de artículos científicos, mediante algoritmos de procesamiento de datos que se encuentran en las librerías NLTK, NUMPY, MATPLOTLIB, PYPDF2, SKLEARN y SCIPY de Python. Se usó la metodología Scrum para el desarrollo del módulo y se validaron los resultados a través de métodos estadísticos. Se obtuvieron datos a partir de un muestreo aleatorio simple y el análisis de la información contenidas en el corpus de los artículos científicos de la muestra seleccionada, pudiéndose obtener información relevante y visualización de datos significativos de las distancias Euclidiana, Correlación, Chebychev, Coseno, Coeficiente de Jaccard y el Índice Dice. La validación de los resultados a través del análisis de la varianza de un factor arrojó el valor de F = 17,621 siendo mayor que el valor crítico para F que fue de 2,412 y la probabilidad menor a 0,05 demostrando que las variables de frecuencias de los artículos se comportan de manera significativa en el proceso de representar métricas de acuerdo al corpus de los artículos.Ecuador: Latacunga: Universidad Técnica de Cotopaxi: UTCRodríguez Bárcenas, Gustavo PhD.2021-04-09T00:30:50Z2021-04-09T00:30:50Z2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis91 páginasapplication/pdfSegundo Humberto Corrales Beltrán (2020) Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA UTC. Latacunga. 91 p.MUTC-000722http://repositorio.utc.edu.ec/handle/27000/7234spahttp://creativecommons.org/licenses/by-nc-sa/3.0/ec/info:eu-repo/semantics/openAccessreponame:Repositorio Universidad Técnica de Cotopaxiinstname:Universidad Técnica de Cotopaxiinstacron:UTC2021-04-09T08:00:24Zoai:repositorio.utc.edu.ec:27000/7234Institucionalhttp://repositorio.utc.edu.ec/Universidad públicahttps://www.utc.edu.ec/..Ecuador...opendoar:02026-04-26T03:40:51.193159Repositorio Universidad Técnica de Cotopaxi - Universidad Técnica de Cotopaxitrue |
| spellingShingle | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA Corrales Beltrán, Segundo Humberto ANÁLISIS DE INFORMACIÓN CORPUS ARTÍCULOS CIENTÍFICOS SISTEMAS DE INFORMACIÓN |
| status_str | publishedVersion |
| title | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| title_full | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| title_fullStr | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| title_full_unstemmed | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| title_short | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| title_sort | Métodos para el análisis de la información en corpus de artículos científicos con algoritmos de clasificación y librerías NLTK en la Plataforma Científica ECUCIENCIA |
| topic | ANÁLISIS DE INFORMACIÓN CORPUS ARTÍCULOS CIENTÍFICOS SISTEMAS DE INFORMACIÓN |
| url | http://repositorio.utc.edu.ec/handle/27000/7234 |