Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales

El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de En...

Volledige beschrijving

Bewaard in:
Bibliografische gegevens
Hoofdauteur: Vinueza Narváez, Caterine Lisbet (author)
Formaat: bachelorThesis
Taal:spa
Gepubliceerd in: 2025
Onderwerpen:
Online toegang:https://dspace.espoch.edu.ec/handle/123456789/25105
Tags: Voeg label toe
Geen labels, Wees de eerste die dit record labelt!
_version_ 1858980069572083712
author Vinueza Narváez, Caterine Lisbet
author_facet Vinueza Narváez, Caterine Lisbet
author_role author
collection Repositorio Escuela Superior Politécnica de Chimborazo
dc.contributor.none.fl_str_mv Morocho Barrionuevo, Tania Paulina
Escudero Villa, Amalia Isabel
dc.creator.none.fl_str_mv Vinueza Narváez, Caterine Lisbet
dc.date.none.fl_str_mv 2025-10-08T19:42:47Z
2025-05-21
2026-03-03T08:16:34Z
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv Vinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba.
https://dspace.espoch.edu.ec/handle/123456789/25105
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
dc.relation.none.fl_str_mv UDCTFC;226T0174
dc.rights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND)
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Escuela Superior Politécnica de Chimborazo
instname:Escuela Superior Politécnica de Chimborazo
instacron:ESPOCH
dc.subject.none.fl_str_mv MÉTODO K-MEANS
CADENAS DE MARKOV
MÉTODO BOXPLOTS
DATOS ATÍPICOS
PRUEBA DE KOLMOGOROV SMIRNOV
dc.title.none.fl_str_mv Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
dc.type.none.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de Energías Renovables y Ambiente (GEAA) ESPOCH, de 11 estaciones distribuidas estratégicamente en la provincia de Chimborazo, entre 2015 y 2020. Los datos atípicos en temperaturas dificultan el entendimiento, confiabilidad y calidad de los resultados al ser usados para ciertos análisis, pronósticos o modelaciones, por lo que, mediante el análisis de los diferentes métodos se identificó que las tres técnicas convergen en la misma estación como la que mayor cantidad de outliers presenta, Matus. Por medio de una prueba de Kolmogorov-Smirnov se compararon las distribuciones de las estaciones, obteniendo que en ciertos años el método Boxplots difiere con la distribución original, mientras que K-Means y Cadenas de Markov mantienen una similaridad con los datos observados. Por esta razón se analizaron los estadísticos descriptivos de la estación con las 3 técnicas. El método de Cadenas de Markov y el de K-Means son los que se mantuvieron más semejantes y cercanos a la distribución de origen después de la limpieza en cuanto a la media y desviación. Además, la tabla de los porcentajes de atípicos identificados por método verificó que mediante estos procesos se obtuvo menor cantidad de atípicos, concluyendo así que estos son los más apropiados para la identificación de outliers de las temperaturas.
eu_rights_str_mv openAccess
format bachelorThesis
id ESPOCH_73fe3ebb98fccfed008e9d023df2ab09
identifier_str_mv Vinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba.
instacron_str ESPOCH
institution ESPOCH
instname_str Escuela Superior Politécnica de Chimborazo
language spa
network_acronym_str ESPOCH
network_name_str Repositorio Escuela Superior Politécnica de Chimborazo
oai_identifier_str oai:dspace.espoch.edu.ec:123456789/25105
publishDate 2025
publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
reponame_str Repositorio Escuela Superior Politécnica de Chimborazo
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazo
repository_id_str 1750
rights_invalid_str_mv http://purl.org/coar/access_right/c_abf2
Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND)
http://creativecommons.org/licenses/by-nc-nd/4.0/
spelling Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos realesVinueza Narváez, Caterine LisbetMÉTODO K-MEANSCADENAS DE MARKOVMÉTODO BOXPLOTSDATOS ATÍPICOSPRUEBA DE KOLMOGOROV SMIRNOVEl presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de Energías Renovables y Ambiente (GEAA) ESPOCH, de 11 estaciones distribuidas estratégicamente en la provincia de Chimborazo, entre 2015 y 2020. Los datos atípicos en temperaturas dificultan el entendimiento, confiabilidad y calidad de los resultados al ser usados para ciertos análisis, pronósticos o modelaciones, por lo que, mediante el análisis de los diferentes métodos se identificó que las tres técnicas convergen en la misma estación como la que mayor cantidad de outliers presenta, Matus. Por medio de una prueba de Kolmogorov-Smirnov se compararon las distribuciones de las estaciones, obteniendo que en ciertos años el método Boxplots difiere con la distribución original, mientras que K-Means y Cadenas de Markov mantienen una similaridad con los datos observados. Por esta razón se analizaron los estadísticos descriptivos de la estación con las 3 técnicas. El método de Cadenas de Markov y el de K-Means son los que se mantuvieron más semejantes y cercanos a la distribución de origen después de la limpieza en cuanto a la media y desviación. Además, la tabla de los porcentajes de atípicos identificados por método verificó que mediante estos procesos se obtuvo menor cantidad de atípicos, concluyendo así que estos son los más apropiados para la identificación de outliers de las temperaturas.This study focused on the analysis and comparison of techniques such as Boxplots, K-Means, and Markov Chains to identify the one that provides the lowest percentage of atypical temperatures and maintains greater proximity to actual values. The data was provided by the Renewable Energies and Environment (GEAA) ESPOCH group, from 11 stations strategically distributed in the province of Chimborazo, between 2015 and 2020. Atypical temperature data make it difficult to understand, ensure reliability, and ensure the quality of the results when used for certain analyses, forecasts, or models. Therefore, through the analysis of the different methods, it was identified that the three techniques converge at the same station, Matusas the one with the highest number of outliers, using a Kolmogorov-Smirnov test, the station distributions were compared, finding that in certain years the Boxplots method differed from the original distribution, while K-Means and Markov Chains maintained a similarity with the observed data. For this reason, the station's descriptive statistics were analyzed using the three techniques. The Markov Chains and K-Means methods remained the most similar and closest to the original distribution after cleaning in terms of mean and deviation. Furthermore, the table of the percentages of outliers identified by method verified that these processes obtained a smaller number of outliers, thus concluding that these are the most appropriate for identifying temperature outliers.Escuela Superior Politécnica de ChimborazoMorocho Barrionuevo, Tania PaulinaEscudero Villa, Amalia Isabel2025-10-08T19:42:47Z2026-03-03T08:16:34Z2025-05-21http://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfVinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba.https://dspace.espoch.edu.ec/handle/123456789/25105spaUDCTFC;226T0174http://purl.org/coar/access_right/c_abf2Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositorio Escuela Superior Politécnica de Chimborazoinstname:Escuela Superior Politécnica de Chimborazoinstacron:ESPOCH2026-03-03T08:16:34Zoai:dspace.espoch.edu.ec:123456789/25105Institucionalhttp://dspace.espoch.edu.ec/Universidad públicahttps://www.espoch.edu.ec/es/http://dspace.espoch.edu.ec/oai.Ecuador...opendoar:17502026-03-03T08:16:34Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazofalse
spellingShingle Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
Vinueza Narváez, Caterine Lisbet
MÉTODO K-MEANS
CADENAS DE MARKOV
MÉTODO BOXPLOTS
DATOS ATÍPICOS
PRUEBA DE KOLMOGOROV SMIRNOV
status_str publishedVersion
title Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
title_full Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
title_fullStr Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
title_full_unstemmed Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
title_short Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
title_sort Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
topic MÉTODO K-MEANS
CADENAS DE MARKOV
MÉTODO BOXPLOTS
DATOS ATÍPICOS
PRUEBA DE KOLMOGOROV SMIRNOV
url https://dspace.espoch.edu.ec/handle/123456789/25105