domingo, 23 de noviembre de 2014

PROCESO KDD

La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

El proceso de KDD es una herramienta importante para el análisis de los patrones de compra de los 
clientes, que puede ayudar a las empresas a obtener una ventaja competitiva muy valiosa










Pasos del proceso KDD

El proceso de KDD consiste de varios pasos, a través de los cuales se creará un modelo para el análisis de la base de datos. Estos pasos son:

1. Aprender el dominio de la aplicación. Implica el adquirir conocimiento del área de estudio 
del sistema y la meta a obtener.

2. Creación de la base de datos de trabajo. Consiste en elegir un subconjunto de variables o datos de 
muestra, de los cuales se obtendrá conocimiento. Esto con el fin de eliminar valores redundantes e 
inconsistencias en los datos de varias fuentes al juntarlos dentro de una sola base de datos.

3. Limpieza y pre-procesamiento de los datos. Incluye operaciones básicas sobre los datos, como el filtrado para reducir ruido y decidir qué hacer con los datos faltantes.

4 Reducción de datos y proyección. En este paso el analista trata de buscar características útiles para representar los datos en función de las metas del proyecto y posiblemente también reducir las dimensiones de la base de datos.


5. Elegir la función del algoritmo de minería de datos. El propósito del modelo se decidirá en este 
paso. Usualmente los algoritmos de DM realizan una de las siguientes tareas:

6. Elegir el algoritmo de minería de datos. La tarea consiste en seleccionar el método a ser usado para la búsqueda de patrones en los datos. Esto refina el alcance de la tarea anterior para utilizar el algoritmo más adecuado que ayude a alcanzar el objetivo final.

7. Minería de datos. Es el paso de análisis propiamente dicho. 

8. Interpretación. Consiste en entender los resultados del análisis y sus implicaciones y puede llevar a regresar a alguno de los pasos anteriores. Hay técnicas de visualización que pueden ser útiles 
en este paso para facilitar el entendimiento.


9. Utilización del conocimiento obtenido. 


Video sobre el proceso KDD

                                     





Referencias.

 García-Flores, R. A multi-agent system for 
chemical supply chain simulation, management 
and support. PhD tesis, University of Leeds, 
United Kingdom, 2002.

Agrawal, R., Srikant, R., Fast Algorithms for 
Mining Association Rules, Proceedings of the 
20th VLDB Conference, IBM Almaden Research 
Center, 1994.

 Mannion, P. Vernier rethinks WLAN management 
software. Electronic Engineering Times, 
Manhasset, 2 de Febrero de 2004, número 1306, 
pg. 43.



No hay comentarios.:

Publicar un comentario