Presentacion de métodos de Cluster Analysis con Latent Class Analysis
A continuación intentaremos introducir al lector en nuevos y sofisticados metodos de análisis de cluster.
A modo de introducción definiremos
algunos términos necesarios para la posterior comprensión,
Caso: Variables manifiestas sobre
las cuales se va a llevar el análisis. Se definen en forma de vectores. Por ejemplo, los resultados de una encuesta o los rasgos de un tipo de consumidor de un FMCG.
Clustering: Herramienta para agrupar
casos según un criterio especifco, donde generalmente, los vectores de un mismo
grupo (o clústers)
comparten propiedades comunes. El conocimiento de los grupos puede permitir una
descripción sintética de un conjunto de datos multidimensionales complejo.
Matriz Distancias: Es una matriz
que tiene en sus componentes las distancias entre los coeficientes correspondientes.
Clase Latente: Son variables que no
son directamente observables pero si pueden ser inferidas a partir de variables
que si son medibles. Un ejemplo de este tipo de variable seria la “Inseguridad”
que no se puede medir, pero si se puede inferir (por ejemplo) en función la cantidad de robos de la zona.
Los métodos clásicos usados por
la mayoría de los practicionistas son
el “Hierarchical Clustering” y el "K-Means Clustering" (o “Non-Hierarchical
Clustering”). Estos métodos son sencillos, fáciles de aprender y fáciles de
aplicar. Pero como contra tiene grandes limitaciones, entre ellas podemos
nombrar,
- No permite trabajar con datos Binarios o Nominales (salvo que se utilice la medida de Gou, pero no hay consenso en su uso).
- Asigna de forma absoluta los casos a cada cluster.
- Es puramente matemático (sin tener en cuenta las herramientas estadísticas)
Ahora adentremos un poco en la metodologia que aplica el Clustering LCA. A grandes rasgos, lo
que hace esta herramienta es tratar de asignar a cada Caso una probabilidad de
pertenecer a una Clase Latente (luego comentaremos cuales son los métodos para
definirlas), de modo que queda definido un grupo de Casos dentro de cada Clase
los cuales se espera que sean lo más homogéneos entre si. De esta manera lo que se hace es
definir una especie de regresión para las Clases y debido a esto se va
a poder ingresar como input tanto a variables continuas como nominales. Debido a el uso del LCA tambien se pueden aplicar técnicas estadísticas altamente validadas y ademas se evita la asignación absoluta de pertenencia a un cluster de modo que se puede entender los grises entre los casos propuestos.
¿Cómo determinar la cantidad de Clases?
Para esto vamos a utilizar AIC (Akaike Information Criterion)
o el BIC (Bayesian Information Criterion),
de los cuales para muestras relativamente grandes usaremos el BIC. Usualmente
se presentan mediante un gráfico en función de la cantidad de Clases. Con esto
definimos dicha cantidad de clases, la cual será la que minimice el criterio
elegido.
¿Cómo definir cada clase?
Para completar el análisis se debe poner el "label" a cada clase. Para ello vamos a tener que analizar detenidamente las
variables sobre las cuales se realizo el análisis y de forma
agrupada entender sus relaciones con las clases a partir de las probabilidades
condicionales de pertenecer a dicha clase. Este análisis es muy rico a la hora de hacer uso de esta herramienta para la investigación de las relaciones entre los
clusters.
¿Qué software debo usar?
Para llevar adelante el análisis, se debe recurrir a
distintos software. Este párrafo en uno
de los mas importantes de esta presentación ya que voy a mencionar de forma
clara sobre que programas trabajar. Primero y principal se debe entender que el
software seleccionado va a depender en gran medida de quien es el usuario, y de
los objetivos del análisis. Los mas importantes son Latent Gold,
MCLUST y el poLCA. El primero es el único
de los tres que requiere el pago de una licencia para su uso, mientras que los últimos
dos son de código abierto ya que corresponden a paquetes desarrollados sobre R, (http://cran.r-project.org/).
A modo de cierre voy a dejar bibliografía donde se puede
encontrar un análisis completo y los links al software mencionados:
El procedimiento para su estimación y calculo lo recomiendo
buscar en:
Y para los softwares:
poLCA: An R Package for Polytomous Variable Latent Class Analysis
mclust Version 4 for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density Estimation
poLCA: An R Package for Polytomous Variable Latent Class Analysis
mclust Version 4 for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density Estimation
Como siempre, MUCHAS GRACIAS POR SU TIEMPO.
Cualquier tema no dude en comentar.
Cualquier tema no dude en comentar.