A robust clustering technique for a Big Data approach: CLARABD for Mixed data types

Cuando el investigador no cuenta con un conocimiento apriori de la conformación  de grupos  en un conjunto  de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto  de datos puede ser mixto (...

पूर्ण विवरण

में बचाया:
ग्रंथसूची विवरण
मुख्य लेखक: Morales Oñate, Víctor (author)
अन्य लेखक: Morales Oñate , Bolívar (author)
स्वरूप: article
भाषा:spa
प्रकाशित: 2019
विषय:
ऑनलाइन पहुंच:https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68
टैग: टैग जोड़ें
कोई टैग नहीं, इस रिकॉर्ड को टैग करने वाले पहले व्यक्ति बनें!
_version_ 1840093382088589312
author Morales Oñate, Víctor
author2 Morales Oñate , Bolívar
author2_role author
author_facet Morales Oñate, Víctor
Morales Oñate , Bolívar
author_role author
collection Revista Perfiles
dc.creator.none.fl_str_mv Morales Oñate, Víctor
Morales Oñate , Bolívar
dc.date.none.fl_str_mv 2019-07-31
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68
10.47187/perf.v2i22.68
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
dc.relation.none.fl_str_mv https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68/40
dc.rights.none.fl_str_mv https://creativecommons.org/licenses/by-nc/4.0
info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv Perfiles; Vol. 2 No. 22 (2019): [July - December 2019]; 87-97
Perfiles; Vol. 2 Núm. 22 (2019): [Julio - Diciembre 2019]; 87-97
2477-9105
reponame:Revista Perfiles
instname:Escuela Superior Politécnica de Chimborazo
instacron:ESPOCH
dc.subject.none.fl_str_mv Classification
CLARA
K medoids
mixed data types
R software
Multivariate Statistics
Clasificación
CLARA
K-medoides
datos mixtos
R software
Estadística Multivariante
dc.title.none.fl_str_mv A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
UNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Artículo revisado por pares
description Cuando el investigador no cuenta con un conocimiento apriori de la conformación  de grupos  en un conjunto  de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto  de datos puede ser mixto (datos  cualitativos y/o  cuan- titativos) o presentarse  en grandes volúmenes. El algoritmo  k-medias, por ejemplo, no permite  la comparación de datos  mixtos  y está limitado  a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación  de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo  CLARA tradicional  puede exceder fácilmente este limitante  de volúmenes, pero  no permite  la comparación  de datos mixtos. En este contexto, este trabajo  es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia  de Gower es central  en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar  las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso.
eu_rights_str_mv openAccess
format article
id REVPERFIL_06fd8767c4359f6e8d0148094f67589c
identifier_str_mv 10.47187/perf.v2i22.68
instacron_str ESPOCH
institution ESPOCH
instname_str Escuela Superior Politécnica de Chimborazo
language spa
network_acronym_str REVPERFIL
network_name_str Revista Perfiles
oai_identifier_str oai:ojs2.localhost:article/68
publishDate 2019
publisher.none.fl_str_mv Escuela Superior Politécnica de Chimborazo
reponame_str Revista Perfiles
repository.mail.fl_str_mv
repository.name.fl_str_mv Revista Perfiles - Escuela Superior Politécnica de Chimborazo
repository_id_str 0
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc/4.0
spelling A robust clustering technique for a Big Data approach: CLARABD for Mixed data typesUNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOSMorales Oñate, Víctor Morales Oñate , Bolívar ClassificationCLARAK medoidsmixed data typesR softwareMultivariate StatisticsClasificaciónCLARAK-medoidesdatos mixtosR softwareEstadística MultivarianteCuando el investigador no cuenta con un conocimiento apriori de la conformación  de grupos  en un conjunto  de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto  de datos puede ser mixto (datos  cualitativos y/o  cuan- titativos) o presentarse  en grandes volúmenes. El algoritmo  k-medias, por ejemplo, no permite  la comparación de datos  mixtos  y está limitado  a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación  de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo  CLARA tradicional  puede exceder fácilmente este limitante  de volúmenes, pero  no permite  la comparación  de datos mixtos. En este contexto, este trabajo  es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia  de Gower es central  en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar  las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso.When a researcher does not have an a priori knowledge of the configuration of groups in a given data set, the need to perform a classification known as unsupervised classification emerges. In addition, the data set can be mixed (qualitative and/or  quantitative data) or presented in large volumes. The kmeans algorithm, for example, does not allow the comparison of mixed data and is limited to a maximum of 65536 objects in the R software. K-medoids, on the other hand, allows the comparison of mixed data but also has the same limitation of objects that k-means does. The traditional CLARA algorithm can easily exceed this volume limitation, but it does not allow the comparison of mixed data. In this context, this work is an extension of the CLARA algorithm for mixed data, the CLARABD algorithm. Gower distance is central in CLARABD to make this ex- tension, because it allows the comparison of mixed data and it is also possible to process a data set with more than 65536 observations. To show the benefits of the proposed algorithm, a simulation process has been carried out as well as an application to real data, obtaining consistent results in each case.Escuela Superior Politécnica de Chimborazo2019-07-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArtículo revisado por paresapplication/pdfhttps://perfiles.espoch.edu.ec/index.php/perfiles/article/view/6810.47187/perf.v2i22.68Perfiles; Vol. 2 No. 22 (2019): [July - December 2019]; 87-97Perfiles; Vol. 2 Núm. 22 (2019): [Julio - Diciembre 2019]; 87-972477-9105reponame:Revista Perfilesinstname:Escuela Superior Politécnica de Chimborazoinstacron:ESPOCHspahttps://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68/40https://creativecommons.org/licenses/by-nc/4.0info:eu-repo/semantics/openAccess2024-08-24T00:49:32Zoai:ojs2.localhost:article/68Portal de revistashttps://perfiles.espoch.edu.ec/Universidad públicahttps://espoch.edu.ecEcuador2477-91051390-5740opendoar:02024-08-24T00:49:32Revista Perfiles - Escuela Superior Politécnica de Chimborazofalse
spellingShingle A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
Morales Oñate, Víctor
Classification
CLARA
K medoids
mixed data types
R software
Multivariate Statistics
Clasificación
CLARA
K-medoides
datos mixtos
R software
Estadística Multivariante
status_str publishedVersion
title A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
title_full A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
title_fullStr A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
title_full_unstemmed A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
title_short A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
title_sort A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
topic Classification
CLARA
K medoids
mixed data types
R software
Multivariate Statistics
Clasificación
CLARA
K-medoides
datos mixtos
R software
Estadística Multivariante
url https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68