A robust clustering technique for a Big Data approach: CLARABD for Mixed data types
Cuando el investigador no cuenta con un conocimiento apriori de la conformación de grupos en un conjunto de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto de datos puede ser mixto (...
में बचाया:
मुख्य लेखक: | |
---|---|
अन्य लेखक: | |
स्वरूप: | article |
भाषा: | spa |
प्रकाशित: |
2019
|
विषय: | |
ऑनलाइन पहुंच: | https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68 |
टैग: |
टैग जोड़ें
कोई टैग नहीं, इस रिकॉर्ड को टैग करने वाले पहले व्यक्ति बनें!
|
_version_ | 1840093382088589312 |
---|---|
author | Morales Oñate, Víctor |
author2 | Morales Oñate , Bolívar |
author2_role | author |
author_facet | Morales Oñate, Víctor Morales Oñate , Bolívar |
author_role | author |
collection | Revista Perfiles |
dc.creator.none.fl_str_mv | Morales Oñate, Víctor Morales Oñate , Bolívar |
dc.date.none.fl_str_mv | 2019-07-31 |
dc.format.none.fl_str_mv | application/pdf |
dc.identifier.none.fl_str_mv | https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68 10.47187/perf.v2i22.68 |
dc.language.none.fl_str_mv | spa |
dc.publisher.none.fl_str_mv | Escuela Superior Politécnica de Chimborazo |
dc.relation.none.fl_str_mv | https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68/40 |
dc.rights.none.fl_str_mv | https://creativecommons.org/licenses/by-nc/4.0 info:eu-repo/semantics/openAccess |
dc.source.none.fl_str_mv | Perfiles; Vol. 2 No. 22 (2019): [July - December 2019]; 87-97 Perfiles; Vol. 2 Núm. 22 (2019): [Julio - Diciembre 2019]; 87-97 2477-9105 reponame:Revista Perfiles instname:Escuela Superior Politécnica de Chimborazo instacron:ESPOCH |
dc.subject.none.fl_str_mv | Classification CLARA K medoids mixed data types R software Multivariate Statistics Clasificación CLARA K-medoides datos mixtos R software Estadística Multivariante |
dc.title.none.fl_str_mv | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types UNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOS |
dc.type.none.fl_str_mv | info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Artículo revisado por pares |
description | Cuando el investigador no cuenta con un conocimiento apriori de la conformación de grupos en un conjunto de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto de datos puede ser mixto (datos cualitativos y/o cuan- titativos) o presentarse en grandes volúmenes. El algoritmo k-medias, por ejemplo, no permite la comparación de datos mixtos y está limitado a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo CLARA tradicional puede exceder fácilmente este limitante de volúmenes, pero no permite la comparación de datos mixtos. En este contexto, este trabajo es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia de Gower es central en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso. |
eu_rights_str_mv | openAccess |
format | article |
id | REVPERFIL_06fd8767c4359f6e8d0148094f67589c |
identifier_str_mv | 10.47187/perf.v2i22.68 |
instacron_str | ESPOCH |
institution | ESPOCH |
instname_str | Escuela Superior Politécnica de Chimborazo |
language | spa |
network_acronym_str | REVPERFIL |
network_name_str | Revista Perfiles |
oai_identifier_str | oai:ojs2.localhost:article/68 |
publishDate | 2019 |
publisher.none.fl_str_mv | Escuela Superior Politécnica de Chimborazo |
reponame_str | Revista Perfiles |
repository.mail.fl_str_mv | |
repository.name.fl_str_mv | Revista Perfiles - Escuela Superior Politécnica de Chimborazo |
repository_id_str | 0 |
rights_invalid_str_mv | https://creativecommons.org/licenses/by-nc/4.0 |
spelling | A robust clustering technique for a Big Data approach: CLARABD for Mixed data typesUNA TÉCNICA DE AGRUPACIÓN ROBUSTA PARA UN ENFOQUE BIG DATA: CLARABD PARA TIPOS DE DATOS MIXTOSMorales Oñate, Víctor Morales Oñate , Bolívar ClassificationCLARAK medoidsmixed data typesR softwareMultivariate StatisticsClasificaciónCLARAK-medoidesdatos mixtosR softwareEstadística MultivarianteCuando el investigador no cuenta con un conocimiento apriori de la conformación de grupos en un conjunto de datos dado, emerge la necesidad de realizar una clasificación conocida como clasificación no supervisada. Además, el conjunto de datos puede ser mixto (datos cualitativos y/o cuan- titativos) o presentarse en grandes volúmenes. El algoritmo k-medias, por ejemplo, no permite la comparación de datos mixtos y está limitado a un máximo de 65536 objetos en el software R. K-medoides, por su parte, permite la comparación de datos mixtos pero también tiene la misma limitación de objetos que k-medias. El algoritmo CLARA tradicional puede exceder fácilmente este limitante de volúmenes, pero no permite la comparación de datos mixtos. En este contexto, este trabajo es una extensión del algoritmo CLARA para datos mixtos, el algoritmo CLARABD. La distancia de Gower es central en CLARABD para realizar esta extensión, debido a que permite la comparación de datos mixtos y también es posible procesar un conjunto de datos con mas de 65536 observaciones. Para mostrar las bondades del algoritmo propuesto, se ha realizado un proceso de simulación así como una aplicación a datos reales obteniendo resultados consistentes en cada caso.When a researcher does not have an a priori knowledge of the configuration of groups in a given data set, the need to perform a classification known as unsupervised classification emerges. In addition, the data set can be mixed (qualitative and/or quantitative data) or presented in large volumes. The kmeans algorithm, for example, does not allow the comparison of mixed data and is limited to a maximum of 65536 objects in the R software. K-medoids, on the other hand, allows the comparison of mixed data but also has the same limitation of objects that k-means does. The traditional CLARA algorithm can easily exceed this volume limitation, but it does not allow the comparison of mixed data. In this context, this work is an extension of the CLARA algorithm for mixed data, the CLARABD algorithm. Gower distance is central in CLARABD to make this ex- tension, because it allows the comparison of mixed data and it is also possible to process a data set with more than 65536 observations. To show the benefits of the proposed algorithm, a simulation process has been carried out as well as an application to real data, obtaining consistent results in each case.Escuela Superior Politécnica de Chimborazo2019-07-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArtículo revisado por paresapplication/pdfhttps://perfiles.espoch.edu.ec/index.php/perfiles/article/view/6810.47187/perf.v2i22.68Perfiles; Vol. 2 No. 22 (2019): [July - December 2019]; 87-97Perfiles; Vol. 2 Núm. 22 (2019): [Julio - Diciembre 2019]; 87-972477-9105reponame:Revista Perfilesinstname:Escuela Superior Politécnica de Chimborazoinstacron:ESPOCHspahttps://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68/40https://creativecommons.org/licenses/by-nc/4.0info:eu-repo/semantics/openAccess2024-08-24T00:49:32Zoai:ojs2.localhost:article/68Portal de revistashttps://perfiles.espoch.edu.ec/Universidad públicahttps://espoch.edu.ecEcuador2477-91051390-5740opendoar:02024-08-24T00:49:32Revista Perfiles - Escuela Superior Politécnica de Chimborazofalse |
spellingShingle | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types Morales Oñate, Víctor Classification CLARA K medoids mixed data types R software Multivariate Statistics Clasificación CLARA K-medoides datos mixtos R software Estadística Multivariante |
status_str | publishedVersion |
title | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
title_full | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
title_fullStr | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
title_full_unstemmed | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
title_short | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
title_sort | A robust clustering technique for a Big Data approach: CLARABD for Mixed data types |
topic | Classification CLARA K medoids mixed data types R software Multivariate Statistics Clasificación CLARA K-medoides datos mixtos R software Estadística Multivariante |
url | https://perfiles.espoch.edu.ec/index.php/perfiles/article/view/68 |