Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales
El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de En...
Bewaard in:
| Hoofdauteur: | |
|---|---|
| Formaat: | bachelorThesis |
| Taal: | spa |
| Gepubliceerd in: |
2025
|
| Onderwerpen: | |
| Online toegang: | https://dspace.espoch.edu.ec/handle/123456789/25105 |
| Tags: |
Voeg label toe
Geen labels, Wees de eerste die dit record labelt!
|
| _version_ | 1858980069572083712 |
|---|---|
| author | Vinueza Narváez, Caterine Lisbet |
| author_facet | Vinueza Narváez, Caterine Lisbet |
| author_role | author |
| collection | Repositorio Escuela Superior Politécnica de Chimborazo |
| dc.contributor.none.fl_str_mv | Morocho Barrionuevo, Tania Paulina Escudero Villa, Amalia Isabel |
| dc.creator.none.fl_str_mv | Vinueza Narváez, Caterine Lisbet |
| dc.date.none.fl_str_mv | 2025-10-08T19:42:47Z 2025-05-21 2026-03-03T08:16:34Z |
| dc.format.none.fl_str_mv | application/pdf |
| dc.identifier.none.fl_str_mv | Vinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba. https://dspace.espoch.edu.ec/handle/123456789/25105 |
| dc.language.none.fl_str_mv | spa |
| dc.publisher.none.fl_str_mv | Escuela Superior Politécnica de Chimborazo |
| dc.relation.none.fl_str_mv | UDCTFC;226T0174 |
| dc.rights.none.fl_str_mv | http://purl.org/coar/access_right/c_abf2 Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND) http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| dc.source.none.fl_str_mv | reponame:Repositorio Escuela Superior Politécnica de Chimborazo instname:Escuela Superior Politécnica de Chimborazo instacron:ESPOCH |
| dc.subject.none.fl_str_mv | MÉTODO K-MEANS CADENAS DE MARKOV MÉTODO BOXPLOTS DATOS ATÍPICOS PRUEBA DE KOLMOGOROV SMIRNOV |
| dc.title.none.fl_str_mv | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| dc.type.none.fl_str_mv | http://purl.org/coar/version/c_b1a7d7d4d402bcce info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/bachelorThesis |
| description | El presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de Energías Renovables y Ambiente (GEAA) ESPOCH, de 11 estaciones distribuidas estratégicamente en la provincia de Chimborazo, entre 2015 y 2020. Los datos atípicos en temperaturas dificultan el entendimiento, confiabilidad y calidad de los resultados al ser usados para ciertos análisis, pronósticos o modelaciones, por lo que, mediante el análisis de los diferentes métodos se identificó que las tres técnicas convergen en la misma estación como la que mayor cantidad de outliers presenta, Matus. Por medio de una prueba de Kolmogorov-Smirnov se compararon las distribuciones de las estaciones, obteniendo que en ciertos años el método Boxplots difiere con la distribución original, mientras que K-Means y Cadenas de Markov mantienen una similaridad con los datos observados. Por esta razón se analizaron los estadísticos descriptivos de la estación con las 3 técnicas. El método de Cadenas de Markov y el de K-Means son los que se mantuvieron más semejantes y cercanos a la distribución de origen después de la limpieza en cuanto a la media y desviación. Además, la tabla de los porcentajes de atípicos identificados por método verificó que mediante estos procesos se obtuvo menor cantidad de atípicos, concluyendo así que estos son los más apropiados para la identificación de outliers de las temperaturas. |
| eu_rights_str_mv | openAccess |
| format | bachelorThesis |
| id | ESPOCH_73fe3ebb98fccfed008e9d023df2ab09 |
| identifier_str_mv | Vinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba. |
| instacron_str | ESPOCH |
| institution | ESPOCH |
| instname_str | Escuela Superior Politécnica de Chimborazo |
| language | spa |
| network_acronym_str | ESPOCH |
| network_name_str | Repositorio Escuela Superior Politécnica de Chimborazo |
| oai_identifier_str | oai:dspace.espoch.edu.ec:123456789/25105 |
| publishDate | 2025 |
| publisher.none.fl_str_mv | Escuela Superior Politécnica de Chimborazo |
| reponame_str | Repositorio Escuela Superior Politécnica de Chimborazo |
| repository.mail.fl_str_mv | . |
| repository.name.fl_str_mv | Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazo |
| repository_id_str | 1750 |
| rights_invalid_str_mv | http://purl.org/coar/access_right/c_abf2 Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND) http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| spelling | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos realesVinueza Narváez, Caterine LisbetMÉTODO K-MEANSCADENAS DE MARKOVMÉTODO BOXPLOTSDATOS ATÍPICOSPRUEBA DE KOLMOGOROV SMIRNOVEl presente estudio se centró en el análisis y comparación de técnicas como Boxplots, K-Means y Cadenas de Markov para identificar aquella que proporcione el menor porcentaje de temperaturas atípicas y mantener mayor proximidad a los valores reales. Los datos fueron proporcionados por el grupo de Energías Renovables y Ambiente (GEAA) ESPOCH, de 11 estaciones distribuidas estratégicamente en la provincia de Chimborazo, entre 2015 y 2020. Los datos atípicos en temperaturas dificultan el entendimiento, confiabilidad y calidad de los resultados al ser usados para ciertos análisis, pronósticos o modelaciones, por lo que, mediante el análisis de los diferentes métodos se identificó que las tres técnicas convergen en la misma estación como la que mayor cantidad de outliers presenta, Matus. Por medio de una prueba de Kolmogorov-Smirnov se compararon las distribuciones de las estaciones, obteniendo que en ciertos años el método Boxplots difiere con la distribución original, mientras que K-Means y Cadenas de Markov mantienen una similaridad con los datos observados. Por esta razón se analizaron los estadísticos descriptivos de la estación con las 3 técnicas. El método de Cadenas de Markov y el de K-Means son los que se mantuvieron más semejantes y cercanos a la distribución de origen después de la limpieza en cuanto a la media y desviación. Además, la tabla de los porcentajes de atípicos identificados por método verificó que mediante estos procesos se obtuvo menor cantidad de atípicos, concluyendo así que estos son los más apropiados para la identificación de outliers de las temperaturas.This study focused on the analysis and comparison of techniques such as Boxplots, K-Means, and Markov Chains to identify the one that provides the lowest percentage of atypical temperatures and maintains greater proximity to actual values. The data was provided by the Renewable Energies and Environment (GEAA) ESPOCH group, from 11 stations strategically distributed in the province of Chimborazo, between 2015 and 2020. Atypical temperature data make it difficult to understand, ensure reliability, and ensure the quality of the results when used for certain analyses, forecasts, or models. Therefore, through the analysis of the different methods, it was identified that the three techniques converge at the same station, Matusas the one with the highest number of outliers, using a Kolmogorov-Smirnov test, the station distributions were compared, finding that in certain years the Boxplots method differed from the original distribution, while K-Means and Markov Chains maintained a similarity with the observed data. For this reason, the station's descriptive statistics were analyzed using the three techniques. The Markov Chains and K-Means methods remained the most similar and closest to the original distribution after cleaning in terms of mean and deviation. Furthermore, the table of the percentages of outliers identified by method verified that these processes obtained a smaller number of outliers, thus concluding that these are the most appropriate for identifying temperature outliers.Escuela Superior Politécnica de ChimborazoMorocho Barrionuevo, Tania PaulinaEscudero Villa, Amalia Isabel2025-10-08T19:42:47Z2026-03-03T08:16:34Z2025-05-21http://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfVinueza Narváez, Caterine Lisbet. (2025). Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales. Escuela Superior Politécnica de Chimborazo. Riobamba.https://dspace.espoch.edu.ec/handle/123456789/25105spaUDCTFC;226T0174http://purl.org/coar/access_right/c_abf2Attribution, Non-commercial, No Derivative Works (CC-BY-NC-ND)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Repositorio Escuela Superior Politécnica de Chimborazoinstname:Escuela Superior Politécnica de Chimborazoinstacron:ESPOCH2026-03-03T08:16:34Zoai:dspace.espoch.edu.ec:123456789/25105Institucionalhttp://dspace.espoch.edu.ec/Universidad públicahttps://www.espoch.edu.ec/es/http://dspace.espoch.edu.ec/oai.Ecuador...opendoar:17502026-03-03T08:16:34Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazofalse |
| spellingShingle | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales Vinueza Narváez, Caterine Lisbet MÉTODO K-MEANS CADENAS DE MARKOV MÉTODO BOXPLOTS DATOS ATÍPICOS PRUEBA DE KOLMOGOROV SMIRNOV |
| status_str | publishedVersion |
| title | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| title_full | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| title_fullStr | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| title_full_unstemmed | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| title_short | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| title_sort | Comparación de técnicas estadísticas para la limpieza de datos de temperaturas de las 11 estaciones GEAA-ESPOCH que permita mantener la proximidad a los datos reales |
| topic | MÉTODO K-MEANS CADENAS DE MARKOV MÉTODO BOXPLOTS DATOS ATÍPICOS PRUEBA DE KOLMOGOROV SMIRNOV |
| url | https://dspace.espoch.edu.ec/handle/123456789/25105 |