Minería de texto en noticias sobre movilización social en el Ecuador

El presente proyecto tiene como objetivo realizar en prensa y digital un análisis comparativo de títulos, y en las primeras líneas de noticias conocidas como entradillas o leads. Este estudio se realizó sobre noticias enfocadas en movilizaciones sociales en el Ecuador entre los años 1990 al 2005, co...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal: Rea Cayambe, Tania de Lourdes (author)
Format: bachelorThesis
Langue:spa
Publié: 2021
Sujets:
Accès en ligne:http://www.dspace.uce.edu.ec/handle/25000/25068
Tags: Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
Description
Résumé:El presente proyecto tiene como objetivo realizar en prensa y digital un análisis comparativo de títulos, y en las primeras líneas de noticias conocidas como entradillas o leads. Este estudio se realizó sobre noticias enfocadas en movilizaciones sociales en el Ecuador entre los años 1990 al 2005, con técnicas de procesamiento del lenguaje natural (PLN) enmarcando la minería de texto y métodos de riqueza léxica. El proyecto parte con la obtención de noticias del diario el Universo y El Hoy, transcritas en archivos digitales por estudiantes de pregrado de la Facultad de Comunicación Social de la Universidad Central del Ecuador. Luego como parte de la metodología en esta tesis se hace uso de las técnicas de PLN para la respectiva limpieza del texto, y por medio de la minería de opinión determinar el sentimiento expresado en dichos textos, basados en la creación de un CORPUS textual y especializado en el dominio periodístico. Se implementó los algoritmos de aprendizaje supervisado, eligiendo el mejor modelo a Random Forest para títulos y leads. Posteriormente, en el análisis a los textos se visualizó mediante la nube de palabras y el reconocimiento de entidades nombradas, luego el procesamiento a profundidad con la técnica de bigramas. Además, el cálculo del índice de riqueza léxica TTR (Type-Token Ratio) y los hápax legomena hacia las frecuencias de palabras, mostrando factores, localidades, actores más mencionados y la diversidad léxica en los textos. Para el desarrollo de esta tesis se emplea la metodología CRISP-DM y el lenguaje de programación Python.