{"id":529,"date":"2018-10-20T02:12:15","date_gmt":"2018-10-20T08:12:15","guid":{"rendered":"http:\/\/www.jacobsoft.com.mx\/?p=529"},"modified":"2025-02-20T13:37:50","modified_gmt":"2025-02-20T19:37:50","slug":"clustering-analysis","status":"publish","type":"post","link":"https:\/\/www.jacobsoft.com.mx\/es_mx\/clustering-analysis\/","title":{"rendered":"Clustering Analysis"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Clustering Analysis<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El an\u00e1lisis clustering o de conglomerados es una t\u00e9cnica de clasificaci\u00f3n y segmentaci\u00f3n que pertenece a la categor\u00eda de <strong>aprendizaje no supervisado<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Identifica grupos de sujetos lo m\u00e1s heterog\u00e9neos posible entre s\u00ed y lo m\u00e1s homog\u00e9neo posible dentro de cada grupo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El an\u00e1lisis establece los grupos bas\u00e1ndose en la similitud que presentan las entidades respecto a una serie de caracter\u00edsticas que se especificaron previamente. Por lo que es el an\u00e1lisis y no el analista quien extrae los grupos de sujetos y sus caracter\u00edsticas definitorias.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El <strong>clustering<\/strong> es un algoritmo de agrupamiento cuyo objetivo es realizar agrupaciones de datos de acuerdo a un criterio, que por lo general este criterio es la distancia o similitud.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Esta similitud se define en t\u00e9rminos de una funci\u00f3n de distancia, como la distancia euclidiana. Aunque existen otras funciones de distancia m\u00e1s robustas o que permiten incluir variables discretas, la euclidiana es una de las m\u00e1s aceptadas. Adicionalmente, la medida m\u00e1s empleada para validar la similitud entre los casos es la matriz de correlaci\u00f3n entre los nxn casos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Su finalidad es revelar concentraciones en los datos o casos para su agrupamiento eficiente en clusters o conglomerados seg\u00fan su homogeneidad y se pueden utilizar tanto variables cualitativas como variables cuantitativas, dado que los grupos se basan en la proximidad o lejan\u00eda de unos con otros.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En este sentido, los grupos no se conocen de antemano, pero quiz\u00e1s se sugieren por la esencia de los datos. En otros an\u00e1lisis, como el caso del an\u00e1lisis discriminante, los grupos se definen previamente (ad hoc), en el clustering no se especifican previamente (post hoc).<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter\"><img loading=\"lazy\" decoding=\"async\" width=\"962\" height=\"374\" src=\"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/clustering.png\" alt=\"\" class=\"wp-image-534\" srcset=\"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/clustering.png 962w, https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/clustering-300x117.png 300w, https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/clustering-768x299.png 768w\" sizes=\"auto, (max-width: 962px) 100vw, 962px\" \/><\/figure><\/div>\n\n\n\n<h3 class=\"wp-block-heading\">Casos y Variables<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Si las variables de aglomeraci\u00f3n est\u00e1n en escalas distintas, ser\u00e1 necesario estandarizar o trabajar con desviaciones respecto a la media. Para el caso de los valores desaparecidos o faltantes, se sugiere eliminar los casos dado que los m\u00e9todos jer\u00e1rquicos no tienen soluci\u00f3n con valores perdidos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En cuanto a los valores at\u00edpicos, estos deforman las distancias y producen clusters unitarios. Por lo que deben ser eliminados de la muestra.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Si existen variables correlacionadas ser\u00e1 necesario un an\u00e1lisis de multicolinealidad previo o un an\u00e1lisis factorial.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por otro lado, la soluci\u00f3n del an\u00e1lisis de cluster no tiene por que ser \u00fanica, sin embargo, no deben existir soluciones contradictorias al usar distintos m\u00e9todos de agrupamiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Adicionalmente, el n\u00famero de observaciones en cada cluster debe ser relevante y estos deben tener sentido conceptual y no variar mucho al variar la muestra o el m\u00e9todo de aglomeraci\u00f3n.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los grupos finales ser\u00e1n tan distintos como permitan los datos y con ellos se podr\u00e1n realizar otros an\u00e1lisis ya sea descriptivos, discriminante, regresi\u00f3n logistica, diferencia u otros.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">M\u00e9todos de clustering<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En cuanto a los m\u00e9todos de agrupamiento, existen dos categor\u00edas generales:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>M\u00e9todos jer\u00e1rquicos, que pueden ser aglomerativos o divisivos<\/li><li>M\u00e9todos no jer\u00e1rquicos, en los que el n\u00famero de clusters o grupos se determina de antemano con una t\u00e9cnica previa y los casos se van asignando a los grupos en funci\u00f3n de su cercan\u00eda.<\/li><\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Los m\u00e9todos m\u00e1s utilizados son a la vez secuenciales, aglomerativos, jer\u00e1rquicos y exclusivos. En todos ellos se siguen dos pasos fundamentales en el proceso de elaboraci\u00f3n de los conglomerados:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>El primero es que los coeficientes de similitud o disimilitud entre los nuevos conglomerados establecidos y los candidatos potenciales a ser admitidos se recalculan en cada etapa.<\/li><li>y el segundo, es el criterio de admisi\u00f3n de nuevos miembros a un conglomerado ya establecido.<\/li><\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">M\u00e9todos Jer\u00e1rquicos<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En este tipo de clustering los dos clusters m\u00e1s similares se van combinando hasta que todos los casos similares est\u00e9n en el mismo cluster.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Existen dos enfoques principales para los cluster jer\u00e1rquicos:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Aglomerativo o de abajo hacia ariba (bottom-up) donde tomamos cada unidad como un cluster individual y se van combinando para formar clusters m\u00e1s grandes<\/li><li>Divisible o de arriba hacia abajo (top-down) donde se inicia con un conjunto completo y se van dividiendo sucesivamente en clusters m\u00e1s peque\u00f1os.<\/li><\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">M\u00e9todos no Jer\u00e1rquicos<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En los m\u00e9todos de agrupamiento no jer\u00e1rquico se consideran todos los clusters a la vez, dado que se requiere especificar en n\u00famero de grupos que se van a generar. El m\u00e9todo no jer\u00e1rquico m\u00e1s utilizado es el<strong> k-Means<\/strong>, el cual es un modelo de centroides.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">k-Means es un m\u00e9todo r\u00e1pido, robusto y f\u00e1cil de entender, lo que hace relativamente eficiente si los datos est\u00e1n conformados por unidades distintas y bien separadas. Su principal desventaja es que se requiere el valor de k antes de iniciar el algoritmo. Por otro lado, si los datos se traslapan ser\u00e1 m\u00e1s dif\u00edcil formar los clusters.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Otra desventaja es que el m\u00e9todo depende de la media y si los datos con categ\u00f3ricos, no existe tal media y por lo tanto no es posible usar el m\u00e9todo k-Means.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los m\u00e9todos no jer\u00e1rquicos son m\u00e1s recomendados para grandes cantidades de datos&nbsp; y son tambi\u00e9n \u00fatiles para la detecci\u00f3n de casos at\u00edpicos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En los siguientes art\u00edculos se describen los m\u00e9todos de agrupamiento o clustering m\u00e1s com\u00fanmente utilizados: k-Means y Jer\u00e1rquico y se presentan ejemplos de implementaci\u00f3n con Python:<\/p>\n\n\n\n<figure class=\"wp-block-pullquote\" style=\"border-color:#0693e3\"><blockquote class=\"has-text-color has-very-dark-gray-color\"><p><a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/k-means-clustering-con-python\/\">k-Means Clustering con Python<\/a><\/p><p><a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/clustering-jerarquico-con-python\/\">Clustering Jer\u00e1rquico con Python<\/a><\/p><\/blockquote><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">La siguiente tabla presenta una comparativa de ambos m\u00e9todos<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter\"><img loading=\"lazy\" decoding=\"async\" width=\"962\" height=\"511\" src=\"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/comparativa_clustering.png\" alt=\"\" class=\"wp-image-536\" srcset=\"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/comparativa_clustering.png 962w, https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/comparativa_clustering-300x159.png 300w, https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/comparativa_clustering-768x408.png 768w\" sizes=\"auto, (max-width: 962px) 100vw, 962px\" \/><\/figure><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Clustering Analysis El an\u00e1lisis clustering o de conglomerados es una t\u00e9cnica de clasificaci\u00f3n y segmentaci\u00f3n &hellip; <\/p>\n","protected":false},"author":2,"featured_media":556,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"advgb_blocks_editor_width":"","advgb_blocks_columns_visual_guide":"","_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_uf_show_specific_survey":0,"_uf_disable_surveys":false,"footnotes":""},"categories":[25,35,46],"tags":[66,57,85,58,56,87,82,86,50,59],"class_list":["post-529","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-algoritmos","category-inteligencia-artificial","category-machine-learning","tag-analisis-de-datos","tag-ciencia-de-datos","tag-clustering","tag-data-mining","tag-data-science","tag-hierarchical-clustering","tag-inteligencia-artificial","tag-k-means","tag-machine-learning","tag-mineria-de-datos"],"aioseo_notices":[],"author_meta":{"display_name":"Jacob Avila Camacho","author_link":"https:\/\/www.jacobsoft.com.mx\/es_mx\/author\/jacob-avila\/"},"featured_img":"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/destacada_cluster_analysis-300x165.png","featured_image_src":"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/destacada_cluster_analysis.png","featured_image_src_square":"https:\/\/www.jacobsoft.com.mx\/wp-content\/uploads\/2018\/10\/destacada_cluster_analysis.png","author_info":{"display_name":"Jacob Avila Camacho","author_link":"https:\/\/www.jacobsoft.com.mx\/es_mx\/author\/jacob-avila\/"},"coauthors":[],"tax_additional":{"categories":{"linked":["<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/algoritmos\/\" class=\"advgb-post-tax-term\">Algoritmos<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/\" class=\"advgb-post-tax-term\">Inteligencia Artificial<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Machine Learning<\/a>"],"unlinked":["<span class=\"advgb-post-tax-term\">Algoritmos<\/span>","<span class=\"advgb-post-tax-term\">Inteligencia Artificial<\/span>","<span class=\"advgb-post-tax-term\">Machine Learning<\/span>"]},"tags":{"linked":["<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">an\u00e1lisis de datos<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Ciencia de Datos<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Clustering<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Data Mining<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Data Science<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Hierarchical Clustering<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Inteligencia Artificial<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">k-means<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">machine learning<\/a>","<a href=\"https:\/\/www.jacobsoft.com.mx\/es_mx\/category\/inteligencia-artificial\/machine-learning\/\" class=\"advgb-post-tax-term\">Miner\u00eda de Datos<\/a>"],"unlinked":["<span class=\"advgb-post-tax-term\">an\u00e1lisis de datos<\/span>","<span class=\"advgb-post-tax-term\">Ciencia de Datos<\/span>","<span class=\"advgb-post-tax-term\">Clustering<\/span>","<span class=\"advgb-post-tax-term\">Data Mining<\/span>","<span class=\"advgb-post-tax-term\">Data Science<\/span>","<span class=\"advgb-post-tax-term\">Hierarchical Clustering<\/span>","<span class=\"advgb-post-tax-term\">Inteligencia Artificial<\/span>","<span class=\"advgb-post-tax-term\">k-means<\/span>","<span class=\"advgb-post-tax-term\">machine learning<\/span>","<span class=\"advgb-post-tax-term\">Miner\u00eda de Datos<\/span>"]}},"comment_count":"1","relative_dates":{"created":"Publicado 8 a\u00f1os hace","modified":"Actualizado 1 a\u00f1o hace"},"absolute_dates":{"created":"Publicado el octubre 20, 2018","modified":"Actualizado el febrero 20, 2025"},"absolute_dates_time":{"created":"Publicado el octubre 20, 2018 2:12 am","modified":"Actualizado el febrero 20, 2025 1:37 pm"},"featured_img_caption":"","series_order":"","_links":{"self":[{"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/posts\/529","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/comments?post=529"}],"version-history":[{"count":11,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/posts\/529\/revisions"}],"predecessor-version":[{"id":607,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/posts\/529\/revisions\/607"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/media\/556"}],"wp:attachment":[{"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/media?parent=529"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/categories?post=529"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.jacobsoft.com.mx\/es_mx\/wp-json\/wp\/v2\/tags?post=529"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}