Cluster Analysis con Latent Class Analysis

Presentacion de métodos de Cluster Analysis con Latent Class Analysis 


A continuación intentaremos introducir al lector en nuevos y sofisticados metodos de análisis de cluster.

A modo de introducción definiremos algunos términos necesarios para la posterior comprensión,

Caso: Variables manifiestas sobre las cuales se va a llevar el análisis. Se definen en forma de vectores. Por ejemplo, los resultados de una encuesta o los rasgos de un tipo de consumidor de un FMCG.

Clustering: Herramienta para agrupar casos según un criterio especifco, donde generalmente, los vectores de un mismo grupo (o clústers) comparten propiedades comunes. El conocimiento de los grupos puede permitir una descripción sintética de un conjunto de datos multidimensionales complejo.

Matriz Distancias: Es una matriz que tiene en sus componentes las distancias entre los coeficientes correspondientes. 

Clase Latente: Son variables que no son directamente observables pero si pueden ser inferidas a partir de variables que si son medibles. Un ejemplo de este tipo de variable seria la “Inseguridad” que no se puede medir, pero si se puede inferir (por ejemplo) en función la cantidad de robos de la zona.


Los métodos clásicos usados por la mayoría de los practicionistas son el “Hierarchical Clustering” y el "K-Means Clustering" (o “Non-Hierarchical Clustering”). Estos métodos son sencillos, fáciles de aprender y fáciles de aplicar. Pero como contra tiene grandes limitaciones, entre ellas podemos nombrar,
  • No permite trabajar con datos Binarios o Nominales (salvo que se utilice la medida de Gou, pero no hay consenso en su uso).
  • Asigna de forma absoluta los casos a cada cluster.
  • Es puramente matemático (sin tener en cuenta las herramientas estadísticas)

Ahora adentremos un poco en la metodologia que aplica el Clustering LCA. A grandes rasgos, lo que hace esta herramienta es tratar de asignar a cada Caso una probabilidad de pertenecer a una Clase Latente (luego comentaremos cuales son los métodos para definirlas), de modo que queda definido un grupo de Casos dentro de cada Clase los cuales se espera que sean lo más homogéneos entre si. De esta manera lo que se hace es definir una especie de regresión para las Clases y debido a esto se va a poder ingresar como input tanto a variables continuas como nominales. Debido a el uso del LCA tambien se pueden aplicar técnicas estadísticas altamente validadas y ademas se evita la asignación absoluta de pertenencia a un cluster de modo que se puede entender los grises entre los casos propuestos.

¿Cómo determinar la cantidad de Clases?

Para esto vamos a utilizar AIC (Akaike Information Criterion) o el  BIC (Bayesian Information Criterion), de los cuales para muestras relativamente grandes usaremos el BIC. Usualmente se presentan mediante un gráfico en función de la cantidad de Clases. Con esto definimos dicha cantidad de clases, la cual será la que minimice el criterio elegido.

¿Cómo definir cada clase?

Para completar el análisis se debe poner el "label" a cada clase. Para ello vamos a tener que analizar detenidamente las variables sobre las cuales se realizo el análisis y de forma agrupada entender sus relaciones con las clases a partir de las probabilidades condicionales de pertenecer a dicha clase. Este análisis es muy rico a la hora de hacer uso de esta herramienta para la investigación de las relaciones entre los clusters.

¿Qué software debo usar?

Para llevar adelante el análisis, se debe recurrir a distintos software. Este párrafo en  uno de los mas importantes de esta presentación ya que voy a mencionar de forma clara sobre que programas trabajar. Primero y principal se debe entender que el software seleccionado va a depender en gran medida de quien es el usuario, y de los objetivos del análisis. Los mas importantes son Latent Gold, MCLUST y el poLCA. El primero es el único de los tres que requiere el pago de una licencia para su uso, mientras que los últimos dos son de código abierto ya que corresponden a paquetes desarrollados sobre R, (http://cran.r-project.org/). 



A modo de cierre voy a dejar bibliografía donde se puede encontrar un análisis completo y los links al software mencionados:

El procedimiento para su estimación y calculo lo recomiendo buscar en:



Como siempre, MUCHAS GRACIAS POR SU TIEMPO.

Cualquier tema no dude en comentar.