Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales

El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de En...

Full description

Saved in:
Bibliographic Details
Main Author: Vinueza Narváez, Caterine Lisbet (author)
Format: bachelorThesis
Language:spa
Published: 2025
Subjects:
Online Access:https://dspace.espoch.edu.ec/handle/123456789/25105
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de Energías Renovables y Ambiente (GEAA) ESPOCH, de 11 estaciones distribuidas estratégicamente en la provincia de Chimborazo, entre 2015 y 2020. Los datos atípicos en temperaturas dificultan el entendimiento, confiabilidad y calidad de los resultados al ser usados para ciertos análisis, pronósticos o modelaciones, por lo que, mediante el análisis de los diferentes métodos se identificó que las tres técnicas convergen en la misma estación como la que mayor cantidad de outliers presenta, Matus. Por medio de una prueba de Kolmogorov-Smirnov se compararon las distribuciones de las estaciones, obteniendo que en ciertos años el método Boxplots difiere con la distribución original, mientras que K-Means y Cadenas de Markov mantienen una similaridad con los datos observados. Por esta razón se analizaron los estadísticos descriptivos de la estación con las 3 técnicas. El método de Cadenas de Markov y el de K-Means son los que se mantuvieron más semejantes y cercanos a la distribución de origen después de la limpieza en cuanto a la media y desviación. Además, la tabla de los porcentajes de atípicos identificados por método verificó que mediante estos procesos se obtuvo menor cantidad de atípicos, concluyendo así que estos son los más apropiados para la identificación de outliers de las temperaturas.