Tema 3 - Clasificación no Supervisada (Clustering)

Estudio, ejemplos y ejercicios

Transparencias: desde la 34 hasta la 43.
Ejemplos: pdf de ejemplos del KNIME, páginas 13 y 14.
Ejercicios: Apartado 2.2.
Material Adicional: Clustering de Pedro Larrañaga (EHU)

Las transparencias, el pdf de los ejemplos, y el pdf de los ejercicios están en la página principal del curso.

Conceptos

  1. Modelos de aprendizaje no supervisado
  2. Algoritmos basados en distancias (k-medias)
  3. Clustering jerárquico

Comentarios sobre el tema

Este tema no viene recogido convenientemente en el libro, hay algunas pinceladas de algunas cosas dispersas entre los diferentes métodos, pero no es una buena referencia. En su lugar os paso un documento hecho por unos compañeros de la Universidad del País vasco que viene mucho más organizadito.

El tema arranca con uno de los los modelos principales de técnicas de análisis, los conocidos como análisis no supervisado. Estas técnicas no son usadas en la predicción de sucesos por medio del aprendizaje de las características discriminates extraidas de unos datos etiquetados. En este caso los datos de los que disponemos no están etiquetados y nuestra tarea es agruparlos según afinidades. El concepto de afinidad será tal que nos permita decir que los elementos de un grupo o cluster, son similares entre sí y diferentes de los de otro cluster. Esto hace que la tarea de construcción del modelo supervisado implique maximizar esas similitudes intra-cluster y maximizar las divergencias inter-clusters.

Los métodos que vamos a tratar (hay varios que no veremos) son en principio de dos tipos, los basados en aglomeraciones o distancias (siendo k-medias el algoritmo más usado) y los de tipo jerárquico.

Estas técnicas tienen su sentido como un paso intermedio en otros procesos de análisis, por ejemplo, antes de realizar un aprendizaje supervisado, podemos querer repartir los datos en estos clusters que mejorar ese aprendizaje supervisado. Un ejemplo de dicho caso sería un estudio de mercado (preferencias de compradores). En este escenario es posible que en lugar de intentar sacar reglas que predigan si un cliente compra o no (aprendizaje supervisado), puede ser más adecuado hacer primeor una segmentación del mercado en diferentes perfiles de cliente (aprendizaje no supervisado), para, posteriormente, intentar extraer reglas específicas para cada segmento del mercado. Las características de los clientes interesados en el producto entre los jóvenes universitarios menores de 25 años será seguro diferentes de las reglas que modelizan los bueno clientes entre jubilados varones.

En los ejercicios vamos a hacer una primera aproximación sobre un posible estudio de este tipo, sobre los datos que ya tenemos, que aprovecharemos más adelante en otras partes del módulo.

Conjuntos de datos

Usaremos los mismos datos que en el tema anterior.

 
docencia/cursos/inap/tema3.txt · Última modificación: 2012/10/08 17:58 (editor externo)
 
Recent changes RSS feed Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki