Duplicidad de código en Stack Overflow en español.

PDF

Đã lưu trong:
Chi tiết về thư mục
Tác giả chính: Gilces León, Maikol Javier (author)
Tác giả khác: Pin Cevallos, Christian Fernando (author)
Định dạng: bachelorThesis
Ngôn ngữ:spa
Được phát hành: 2021
Những chủ đề:
Truy cập trực tuyến:http://repositorio.ug.edu.ec/handle/redug/52648
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
_version_ 1858352748922142720
author Gilces León, Maikol Javier
author2 Pin Cevallos, Christian Fernando
author2_role author
author_facet Gilces León, Maikol Javier
Pin Cevallos, Christian Fernando
author_role author
collection Repositorio Universidad de Guayaquil
dc.contributor.none.fl_str_mv Botto Tobar, Miguel Ángel
dc.creator.none.fl_str_mv Gilces León, Maikol Javier
Pin Cevallos, Christian Fernando
dc.date.none.fl_str_mv 2021-05-16T03:05:58Z
2021-05-16T03:05:58Z
2021-03
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv http://repositorio.ug.edu.ec/handle/redug/52648
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Universidad de Guayaquil
instname:Universidad de Guayaquil
instacron:UG
dc.subject.none.fl_str_mv Stack Overflow en español
Aprendizaje Automático
Levenshtein
Fuzzywuzzy
Cuasiexperimental
Técnicas
Detección
Duplicidad
Código
Stack Overflow in spanish
Machine Learning
Quasi Experimental
Models
Detection
Duplication
dc.title.none.fl_str_mv Duplicidad de código en Stack Overflow en español.
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description PDF
eu_rights_str_mv openAccess
format bachelorThesis
id UG_c18fdb7f02ca4c19c193eb4d6bee727b
instacron_str UG
institution UG
instname_str Universidad de Guayaquil
language spa
network_acronym_str UG
network_name_str Repositorio Universidad de Guayaquil
oai_identifier_str oai:repositorio.ug.edu.ec:redug/52648
publishDate 2021
publisher.none.fl_str_mv Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.
reponame_str Repositorio Universidad de Guayaquil
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Universidad de Guayaquil - Universidad de Guayaquil
repository_id_str 0
spelling Duplicidad de código en Stack Overflow en español.Gilces León, Maikol JavierPin Cevallos, Christian FernandoStack Overflow en españolAprendizaje AutomáticoLevenshteinFuzzywuzzyCuasiexperimentalTécnicasDetecciónDuplicidadCódigoStack Overflow in spanishMachine LearningQuasi ExperimentalModelsDetectionDuplicationPDFEl sitio Stack Overflow en español es una comunidad en línea de preguntas y respuestas sobre desarrollo de software y temas tecnológicos donde sus usuarios pueden publicar interrogantes y aportar sus soluciones a las preguntas de otros usuarios. No obstante, uno de los problemas más recurrente que existe en la comunidad son las publicaciones con segmentos de código duplicado, por tanto, el objetivo de este estudio es desarrollar un modelo de aprendizaje automático para la detección de código duplicado para la cual se llevó a cabo una revisión sistemática de estudios relacionados sobre el tema, con el propósito de tener conocimiento sobre los métodos y técnicas de aprendizaje automático para la detección de duplicidad. Se tomo en consideración las técnicas Levenshtein y FuzzyWuzzy que permiten calcular la distancia de similitud entre dos cadenas de caracteres. Creando un dataset para el preprocesamiento de los datos que serán utilizados para el etiquetado manual, entrenamiento de los modelos desarrollados y recolección de información, una vez implementado las técnicas se procedió a evaluar los resultados obtenidos mediante su precisión y encuestas a los usuarios del sitio, se determinó que las técnicas implementadas tienen una precisión muy efectiva al momento de detectar segmentos de códigos duplicados. Concluyendo que la técnica que es más precisa al momento de identificar la duplicidad en los segmentos de código en las preguntas de SOES es FuzzyWuzzy.The Stack Overflow site is an online Q&A community on software development and technology issues where its users can post questions and provide their solutions to other users' questions. However, one of the most recurrent problems in the community is publications with duplicate code segments, therefore, the objective of this study is to develop a machine learning model for duplicate code detection for which a systematic review of related studies on the subject was carried out, with the purpose of having knowledge of machine learning methods and techniques for duplicity detection. Consideration was given to the Levenshtein and FuzzyWuzzy techniques that allow the similarity distance between two-character strings to be calculated. By creating a Dataset for the preprocessing of the data that will be used for manual labeling, training of the developed models and collection of information, once the techniques were implemented, the results obtained through their precision and surveys of the users of the site were evaluated, it was determined that the techniques implemented have very effective accuracy when detecting duplicate code segments. Concluding that the technique that is most accurate when identifying duplication in code segments in SOES questions is FuzzyWuzzy.Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Sistemas Computacionales.Botto Tobar, Miguel Ángel2021-05-16T03:05:58Z2021-05-16T03:05:58Z2021-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://repositorio.ug.edu.ec/handle/redug/52648spainfo:eu-repo/semantics/openAccessreponame:Repositorio Universidad de Guayaquilinstname:Universidad de Guayaquilinstacron:UG2021-05-16T08:04:05Zoai:repositorio.ug.edu.ec:redug/52648Institucionalhttp://repositorio.ug.edu.ec/Universidad públicahttps://www.ug.edu.ec/..Ecuador...opendoar:02026-02-28T06:32:03.056050Repositorio Universidad de Guayaquil - Universidad de Guayaquiltrue
spellingShingle Duplicidad de código en Stack Overflow en español.
Gilces León, Maikol Javier
Stack Overflow en español
Aprendizaje Automático
Levenshtein
Fuzzywuzzy
Cuasiexperimental
Técnicas
Detección
Duplicidad
Código
Stack Overflow in spanish
Machine Learning
Quasi Experimental
Models
Detection
Duplication
status_str publishedVersion
title Duplicidad de código en Stack Overflow en español.
title_full Duplicidad de código en Stack Overflow en español.
title_fullStr Duplicidad de código en Stack Overflow en español.
title_full_unstemmed Duplicidad de código en Stack Overflow en español.
title_short Duplicidad de código en Stack Overflow en español.
title_sort Duplicidad de código en Stack Overflow en español.
topic Stack Overflow en español
Aprendizaje Automático
Levenshtein
Fuzzywuzzy
Cuasiexperimental
Técnicas
Detección
Duplicidad
Código
Stack Overflow in spanish
Machine Learning
Quasi Experimental
Models
Detection
Duplication
url http://repositorio.ug.edu.ec/handle/redug/52648