Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)

En el presente trabajo se expone un informe del análisis, diseño, implementación y pruebas del módulo para la detección de potencial plagio de las tareas enviadas a un Sistema de Administración de Cursos, utilizando como base tecnológica la programación en paralelo sobre la plataforma de Hadoop, que...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Autor principal: Cruz Ramírez, Eduardo Segundo (author)
Outros Autores: Lavayen Alarcón, Diego Armando (author)
Formato: bachelorThesis
Publicado em: 2010
Assuntos:
Acesso em linha:http://www.dspace.espol.edu.ec/handle/123456789/14757
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
_version_ 1858337358865235968
author Cruz Ramírez, Eduardo Segundo
author2 Lavayen Alarcón, Diego Armando
author2_role author
author_facet Cruz Ramírez, Eduardo Segundo
Lavayen Alarcón, Diego Armando
author_role author
collection Repositorio Escuela Superior Politécnica del Litoral
dc.contributor.none.fl_str_mv Raue, Federico, director
dc.creator.none.fl_str_mv Cruz Ramírez, Eduardo Segundo
Lavayen Alarcón, Diego Armando
dc.date.none.fl_str_mv 2010
2011-02-18
2011-02-18
dc.format.none.fl_str_mv application/pdf
application/vnd.openxmlformats-officedocument.wordprocessingml.document
application/msword
dc.identifier.none.fl_str_mv http://www.dspace.espol.edu.ec/handle/123456789/14757
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Escuela Superior Politécnica del Litoral
instname:Escuela Superior Politécnica del Litoral
instacron:ESPOL
dc.subject.none.fl_str_mv Utilización de la plataforma Hadoop
Sistema de administración de cursos
dc.title.none.fl_str_mv Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description En el presente trabajo se expone un informe del análisis, diseño, implementación y pruebas del módulo para la detección de potencial plagio de las tareas enviadas a un Sistema de Administración de Cursos, utilizando como base tecnológica la programación en paralelo sobre la plataforma de Hadoop, que podría ser adaptado al SIDWeb o Metis. El documento se encuentra dividido principalmente en cinco capítulos que, en su totalidad, exponen los aspectos teóricos y técnicos utilizados para comprender el porqué y el cómo se desarrolló este tema. En el primer capítulo, se define la problemática que se desea resolver indicando el objetivo general y sus respectivos objetivos específicos que planteamos al inicio de esta propuesta. Este capítulo determina una meta concreta y esboza las directrices procedimentales que guiarán el proyecto, acotadas por las limitantes intrínsecas y extrínsecas del desarrollo del mismo. En el segundo capítulo, se presenta un análisis de la base conceptual que utilizamos para comprender cómo la necesidad de comparar dos cadenas está presente en otras ramas de la ciencia, como en la biología, y cómo la solución ha sido propuesta con el uso de herramientas informáticas; así mismo, se expone la estrategia para realizar alineamientos locales de secuencias biológicas con el uso del algoritmo de Smith-Waterman[1] y cómo éste resulta de interés en nuestro trabajo como base de la propuesta del PhD. Robert W. Irving[2] en el que se realiza una mejora para maximizar la cantidad de alineamientos resultantes a partir de dos cadenas sujetas a comparación. En el tercer capítulo, se expone conceptualmente las tecnologías utilizadas para llevar a cabo el proyecto, tanto como el servicio de almacenamiento escalable de datos ofrecido por Amazon (S3), la infraestructura con capacidad de cómputo variable (también de Amazon) para el procesamiento de aplicaciones flexibles tolerante a fallos (EC2), la plataforma utilizada para el procesamiento masivo de datos (Hadoop) y el modelo de programación Map/Reduce, que proponemos para el desarrollo de este proyecto. El cuarto capítulo detalla específicamente como se hizo frente a la problemática expuesta en la implementación del módulo, resultado de la unión conceptual de los puntos citados en los capítulos dos y tres, dividiendo el proceso en dos partes básicamente: • Primero: el pre-procesamiento de los archivos del Sistema de Administración de Cursos para generar archivos en texto plano similares a sus fuentes en los que se conservaron sólo las palabras no consideradas como vacías o carentes de significado semántico y con sólo caracteres trascendentes (caracteres en el rango de la ‘a’ a la ‘z’, de la ‘A’ a la ‘Z’, del ‘0’ al ‘9’). • Segundo: la implementación del algoritmo de Smith-Waterman con las mejoras planteadas por PhD. Robert W. Irving para determinar el plagio haciendo uso de la plataforma de Hadoop con su modelo de programación Map/Reduce. En el quinto capítulo se expone un resumen de las pruebas realizadas y el análisis comparativo obtenido a partir de éstas, permitiendo establecer empíricamente cómo, con el uso de más nodos y una cantidad constante de datos, es posible reducir el tiempo promedio de cómputo total. Al finalizar el presente trabajo proponemos nuestras conclusiones y las recomendaciones para futuras implementaciones, a partir de los problemas presentes y los resultados obtenidos en la elaboración del mismo.  
eu_rights_str_mv openAccess
format bachelorThesis
id ESPOL_cc86fc226c3dd8970685616fa9c0956f
instacron_str ESPOL
institution ESPOL
instname_str Escuela Superior Politécnica del Litoral
network_acronym_str ESPOL
network_name_str Repositorio Escuela Superior Politécnica del Litoral
oai_identifier_str oai:www.dspace.espol.edu.ec:123456789/14757
publishDate 2010
reponame_str Repositorio Escuela Superior Politécnica del Litoral
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Escuela Superior Politécnica del Litoral - Escuela Superior Politécnica del Litoral
repository_id_str 1479
spelling Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)Cruz Ramírez, Eduardo SegundoLavayen Alarcón, Diego ArmandoUtilización de la plataforma HadoopSistema de administración de cursosEn el presente trabajo se expone un informe del análisis, diseño, implementación y pruebas del módulo para la detección de potencial plagio de las tareas enviadas a un Sistema de Administración de Cursos, utilizando como base tecnológica la programación en paralelo sobre la plataforma de Hadoop, que podría ser adaptado al SIDWeb o Metis. El documento se encuentra dividido principalmente en cinco capítulos que, en su totalidad, exponen los aspectos teóricos y técnicos utilizados para comprender el porqué y el cómo se desarrolló este tema. En el primer capítulo, se define la problemática que se desea resolver indicando el objetivo general y sus respectivos objetivos específicos que planteamos al inicio de esta propuesta. Este capítulo determina una meta concreta y esboza las directrices procedimentales que guiarán el proyecto, acotadas por las limitantes intrínsecas y extrínsecas del desarrollo del mismo. En el segundo capítulo, se presenta un análisis de la base conceptual que utilizamos para comprender cómo la necesidad de comparar dos cadenas está presente en otras ramas de la ciencia, como en la biología, y cómo la solución ha sido propuesta con el uso de herramientas informáticas; así mismo, se expone la estrategia para realizar alineamientos locales de secuencias biológicas con el uso del algoritmo de Smith-Waterman[1] y cómo éste resulta de interés en nuestro trabajo como base de la propuesta del PhD. Robert W. Irving[2] en el que se realiza una mejora para maximizar la cantidad de alineamientos resultantes a partir de dos cadenas sujetas a comparación. En el tercer capítulo, se expone conceptualmente las tecnologías utilizadas para llevar a cabo el proyecto, tanto como el servicio de almacenamiento escalable de datos ofrecido por Amazon (S3), la infraestructura con capacidad de cómputo variable (también de Amazon) para el procesamiento de aplicaciones flexibles tolerante a fallos (EC2), la plataforma utilizada para el procesamiento masivo de datos (Hadoop) y el modelo de programación Map/Reduce, que proponemos para el desarrollo de este proyecto. El cuarto capítulo detalla específicamente como se hizo frente a la problemática expuesta en la implementación del módulo, resultado de la unión conceptual de los puntos citados en los capítulos dos y tres, dividiendo el proceso en dos partes básicamente: • Primero: el pre-procesamiento de los archivos del Sistema de Administración de Cursos para generar archivos en texto plano similares a sus fuentes en los que se conservaron sólo las palabras no consideradas como vacías o carentes de significado semántico y con sólo caracteres trascendentes (caracteres en el rango de la ‘a’ a la ‘z’, de la ‘A’ a la ‘Z’, del ‘0’ al ‘9’). • Segundo: la implementación del algoritmo de Smith-Waterman con las mejoras planteadas por PhD. Robert W. Irving para determinar el plagio haciendo uso de la plataforma de Hadoop con su modelo de programación Map/Reduce. En el quinto capítulo se expone un resumen de las pruebas realizadas y el análisis comparativo obtenido a partir de éstas, permitiendo establecer empíricamente cómo, con el uso de más nodos y una cantidad constante de datos, es posible reducir el tiempo promedio de cómputo total. Al finalizar el presente trabajo proponemos nuestras conclusiones y las recomendaciones para futuras implementaciones, a partir de los problemas presentes y los resultados obtenidos en la elaboración del mismo.  Raue, Federico, director2011-02-182011-02-182010info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfapplication/vnd.openxmlformats-officedocument.wordprocessingml.documentapplication/mswordhttp://www.dspace.espol.edu.ec/handle/123456789/14757info:eu-repo/semantics/openAccessreponame:Repositorio Escuela Superior Politécnica del Litoralinstname:Escuela Superior Politécnica del Litoralinstacron:ESPOL2022-07-12T15:54:53Zoai:www.dspace.espol.edu.ec:123456789/14757Institucionalhttps://www.dspace.espol.edu.ec/Universidad públicahttps://www.espol.edu.ec/.https://www.dspace.espol.edu.ec/oaiEcuador...opendoar:14792022-07-12T15:54:53falseInstitucionalhttps://www.dspace.espol.edu.ec/Universidad públicahttps://www.espol.edu.ec/.https://www.dspace.espol.edu.ec/oai.Ecuador...opendoar:14792022-07-12T15:54:53Repositorio Escuela Superior Politécnica del Litoral - Escuela Superior Politécnica del Litoralfalse
spellingShingle Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
Cruz Ramírez, Eduardo Segundo
Utilización de la plataforma Hadoop
Sistema de administración de cursos
status_str publishedVersion
title Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
title_full Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
title_fullStr Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
title_full_unstemmed Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
title_short Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
title_sort Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
topic Utilización de la plataforma Hadoop
Sistema de administración de cursos
url http://www.dspace.espol.edu.ec/handle/123456789/14757