SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.

Analizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables bina...

Full description

Saved in:
Bibliographic Details
Main Author: Morales Oñate, Víctor Hugo (author)
Other Authors: Moreta, Luis (author), Morales Oñate, Bolívar (author)
Format: article
Language:spa
Published: 2020
Subjects:
Online Access:https://dspace.espoch.edu.ec/handle/123456789/14586
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1839320770605481984
author Morales Oñate, Víctor Hugo
author2 Moreta, Luis
Morales Oñate, Bolívar
author2_role author
author
author_facet Morales Oñate, Víctor Hugo
Moreta, Luis
Morales Oñate, Bolívar
author_role author
collection Repositorio Escuela Superior Politécnica de Chimborazo
dc.creator.none.fl_str_mv Morales Oñate, Víctor Hugo
Moreta, Luis
Morales Oñate, Bolívar
dc.date.none.fl_str_mv 2020-04-24
2021-09-03T13:33:44Z
2025-06-20T08:56:07Z
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv https://dspace.espoch.edu.ec/handle/123456789/14586
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/3.0/ec/
dc.source.none.fl_str_mv reponame:Repositorio Escuela Superior Politécnica de Chimborazo
instname:Escuela Superior Politécnica de Chimborazo
instacron:ESPOCH
dc.subject.none.fl_str_mv SMOTE
CLASIFICACIÓN
MUESTRAS DESBALANCEADAS
CLASSIFICATION
UNBALANCED SAMPLES
dc.title.none.fl_str_mv SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
description Analizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos pre- sentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusión de donde se evalúa el poder predictivo del modelo. Una técnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numéricos exclusivamente. Este trabajo es una extensión de SMOTE tal que permite el uso de datos mixtos (numéricos y categóricos). Al usar datos mixtos,la presente propuesta también permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de datos categóricos. Mediante un estudio de simulación, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos.
eu_rights_str_mv openAccess
format article
id ESPOCH_3e16e4c1b21eb7ea7eca9d27d4a1a230
instacron_str ESPOCH
institution ESPOCH
instname_str Escuela Superior Politécnica de Chimborazo
language spa
network_acronym_str ESPOCH
network_name_str Repositorio Escuela Superior Politécnica de Chimborazo
oai_identifier_str oai:dspace.espoch.edu.ec:123456789/14586
publishDate 2020
publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
reponame_str Repositorio Escuela Superior Politécnica de Chimborazo
repository.mail.fl_str_mv .
repository.name.fl_str_mv Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazo
repository_id_str 1750
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/3.0/ec/
spelling SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.Morales Oñate, Víctor HugoMoreta, LuisMorales Oñate, BolívarSMOTECLASIFICACIÓNMUESTRAS DESBALANCEADASCLASSIFICATIONUNBALANCED SAMPLESAnalizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos pre- sentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusión de donde se evalúa el poder predictivo del modelo. Una técnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numéricos exclusivamente. Este trabajo es una extensión de SMOTE tal que permite el uso de datos mixtos (numéricos y categóricos). Al usar datos mixtos,la presente propuesta también permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de datos categóricos. Mediante un estudio de simulación, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos.Analyzing samples with unbalanced data is a challenge for those who should use them in terms of modeling. A context in which this happens is when the response variable is binary and one of its classes is very small in proportion to the total. For the modeling of binary variables, probability models such as logit or probit are usually used. However, these models present problems when the sample is not balanced and it is desired to elaborate the confusion matrix from which the predictive power of the model is evaluated. One technique that allows the observed data to be balanced is the SMOTE algorithm, which works with numerical data exclusively. This work is an extension of SMOTE such that it allows the use of mixed data (numerical and categorical). By using mixed data, this proposal also makes it possible to overcome the barrier of 65536 observations that the R software has when working with categorical data distances. Through a simulation study, it is possible to verify the benefits of the proposed algorithm: SMOTEMD for mixed data.Escuela Superior Politécnica de Chimborazo2021-09-03T13:33:44Z2025-06-20T08:56:07Z2020-04-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://dspace.espoch.edu.ec/handle/123456789/14586spainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/3.0/ec/reponame:Repositorio Escuela Superior Politécnica de Chimborazoinstname:Escuela Superior Politécnica de Chimborazoinstacron:ESPOCH2025-06-20T16:59:53Zoai:dspace.espoch.edu.ec:123456789/14586Institucionalhttp://dspace.espoch.edu.ec/Universidad públicahttps://www.espoch.edu.ec/es/http://dspace.espoch.edu.ec/oai.Ecuador...opendoar:17502025-06-20T16:59:53Repositorio Escuela Superior Politécnica de Chimborazo - Escuela Superior Politécnica de Chimborazofalse
spellingShingle SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
Morales Oñate, Víctor Hugo
SMOTE
CLASIFICACIÓN
MUESTRAS DESBALANCEADAS
CLASSIFICATION
UNBALANCED SAMPLES
status_str publishedVersion
title SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
title_full SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
title_fullStr SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
title_full_unstemmed SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
title_short SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
title_sort SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
topic SMOTE
CLASIFICACIÓN
MUESTRAS DESBALANCEADAS
CLASSIFICATION
UNBALANCED SAMPLES
url https://dspace.espoch.edu.ec/handle/123456789/14586