Tema 2 - Limpieza y Transformación de datos

Estudio, ejemplos y ejercicios

Capítulos del Libro: 4 (4.1, 4.2, 4.3, 4.4, 4.5 y 4.6)
Transparencias: desde la 24 hasta la 33. Esta vez es poquito.
Ejemplos: pdf de ejemplos del KNIME, hasta la página 12 incluida.
Ejercicios: Apartado 2.1 (incluido, claro).

Las transparencias, el pdf de los ejemplos, y el pdf de los ejercicios están en la página principal del curso.

Conceptos

  1. Integración y limpieza de datos: valores perdidos y erróneos.
  2. Transformaciones de atributos: reducción y aumento de la dimensionalidad de los datos.
  3. Discretización y numerización de atributos.

Comentarios sobre el tema

Este segundo tema se mete de lleno en las dos primeras fases del proceso de data mining. La primera de ellas es la fase del 'data understanding' en donde debemos comprender todos los datos con los que vamos a trabajar. La segunda fase se corresponde con el 'data preprocessing' y se preocupa sobre todo de que la calidad de los datos que vamos a usar sea suficientemente buena.

Es importante que os queden claras las técnicas de pre-proceso disponibles, los problemas que se pueden plantear con los datos y sus alternativas para solucionarlos. En los dos siguientes temas vamos a entrar en las técnicas de análisis y nos olvidaremos, aunque no del todo, de estas dos primeras fases.

Intentad resolverlo lo antes posible y remitidnos las soluciones. Las respuestas a los ejercicios las podéis enviar como texto en el correo o adjuntando un fichero de Word.

Hasta pronto.

 
docencia/cursos/inap/tema2.txt · Última modificación: 2012/10/08 17:58 (editor externo)
 
Recent changes RSS feed Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki