domingo, 23 de noviembre de 2014

7. Proceso de Minería de Datos

Tema 7: Proceso de Minería de Datos


Es fundamental conocer el proceso de minería de datos, de manera que sea posible extraer el conocimiento, a partir de patrones detectados por medio de algoritmos, para así aplicar ese conocimiento a la inteligencia de negocios.


El Proceso de Minería de datos, consta de los siguientes pasos:

  1. Definir el problema: Se deciden cuáles van a ser los objetivos (aquellas que se quieren predecir o inferir), las variables independientes y la selección de registros (datos) a utilizar.
  2. Preparar los datos: Análisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o diagramas de dispersión. Búsqueda de valores atípicos (outliers) y ausencia de datos.
  3. Explorar los datos: Transformación o pre procesamiento del conjunto de datos de entrada: en éste paso, se normalizan los datos a una misma escala. También se decide cómo se van a tratar datos faltantes, atípicos o dudosos. Una posibilidad es tratarlos como un tipo de dato especial o bien se decide descartarlos.
  4. Generar modelos: Selección y aplicación de técnicas de minería de datos: se construye un modelo, el cual será utilizado sobre los datos para predecir las clases mediante clasificación o para descubrir grupos similares mediante segmentación.
  5. Explorar y validar los modelos: Se lleva a cabo la extracción de conocimiento, una vez aplicado el paso anterior, se buscan patrones de comportamiento en los valores de las variables del problema de asociación entre dichas variables.
  6.  Implementar y actualizar los modelos: Se realiza la Interpretación y evaluación de datos, ya que el modelo debe ser validado comprobando que las conclusiones arrojadas son válidas y satisfactorias. Si el modelo final no supera ésta evaluación, el proceso puede repetirse desde el principio o a partir de cualquiera de los pasos anteriores.


  
A continuación un ejemplo utilizando la herramienta de minería de datos llamada Weka

En figura 1 se describen las relaciones existentes entre cada paso de un proceso de generación de un modelo de minería de datos, aunque la ilustración es circular esto no significa que cada paso conduzca directamente al siguiente.


Figura 1: Visualización del proceso de generación de un modelo de minería de datos.

La creación de un modelo de minería de datos es un proceso dinámico e iterativo.


  
Preparación de los Datos

Nativamente Weka trabaja con un formato denominado arff, acrónimo de Attribute Relation File Format. Este formato está compuesto por una estructura claramente diferenciada en tres partes:
  • Cabecera: Se define el nombre de la relación.
Su formato es el siguiente:@relation <nombre-de-la-relación>
Por ejemplo: @relation otorgar_credito
  • Declaraciones de atributos: En esta sección se declaran los atributos que compondrán el archivo junto a su tipo. La sintaxis es la siguiente:
@attribute <nombre-del-atributo> <tipo>
Dónde: <nombre-del-atributo> es de tipo string.
<Tipo> acepta diversos tipos, estos son:
·         NUMERIC Expresa números reales.
·         INTEGER Expresa números enteros.
·         DATE Expresa fechas.
·         STRING Expresa cadenas de texto.

Por ejemplo:

@attribute edad numeric
@attribute sexo {f,m}
@attribute ingresos numeric
@attribute estadocivil {soltero,casado,divorciado,viudo}
@attribute hijos numeric
@attribute ctaAhorro {si,no}
@attribute hipoteca {si,no}
@attribute aprobado {si,no}


  • Sección de datos: Se declaran los datos que componen la relación separando con comas los atributos y con saltos de línea las relaciones.
La sintaxis es la siguiente:

Por ejemplo:

@data
28,m,20000,soltero,0,si,no,si

Los datos van en el orden en que se establecieron los atributos. Una vez conocido el formato de los datos soportado por el Weka, se pasará al confeccionado del archivo con extensión arff.

La información puede ser recabada en documentos de texto plano (.txt, .doc, etc.) para su posterior transformación a un archivo de formato específico de datos legible por el Weka, el formato .arff.

Exportación de los Datos a Weka

Primero que nada necesitamos cargar la información ya sea desde un archivo de texto, una base de datos, una pág. Web, etc.

A continuación se visualizará el archivo generado anteriormente ver figura 2.


Figura 2: Visualización del proceso de generación de un modelo de minería de datos.


Generación Modelos

A continuación se visualizan distintos análisis de  las  variables referentes a los estados de actividad de los individuos de la provincia de corrientes. En el gráfico de la fig. 3 se puede visualizar el proceso de selección de atributos.


 Figura 3: Proceso de selección de atributos.

Una ves selecionados los atributos se puede proceder a la selección de clasificacion (en caso de ser datos conocidos), o de cluster (en caso de ser datos desconocidos).
En el gráfico de la fig. 4 se puede visualizar la selección del algoritmo de clasificación de BayesNet.
  



Figura 4: Selección del algoritmo de clasificación BayesNet.

Despues se ejecuta el algoritmo precionado el boton de iniciar, en la figura 5 se obtienen los resultados en la clasificación, los cuales se pueden ver marcados con un ovalo rojo, en este caso nos muestra que de un total de 32 personas 20 si son aptas o aprobadas para tener un crédito, mientras que 12 personas no son aptas para el mismo.


Figura 5: Resultado de clasificación utilizando BayesNet.

En este punto podemos generar un grafo para ver la jerarquía, y los efectos de las condiciones. En la figura 6 se muestra la opción de grafo y en la figura 7 se muestra el grafo obtenido.

  


Figura 6: Selección de grafo.



Figura 7: Visualización de Grafo.

Al dar clic en cualquiera de los grafos nos muestra los resultados obtenidos con forme al grafo padre que en este caso es aprobado y al grafo seleccionado, en el siguiente figura 8 se puede observar lo antes mencionado.


Figura 8: Visualización del resultado con respecto al grafo estado civil.




1 comentario:

  1. Quiero compartir un testimonio sobre cómo el servicio de financiación Le_Meridian me ayudó con un préstamo de 2,000,000.00 USD para financiar mi proyecto de cultivo de marihuana, estoy muy agradecido y prometí compartir esta compañía de financiación legítima a cualquiera que esté buscando la manera de expandir su negocio. project.the company es una empresa de financiación del Reino Unido / EE. UU. Cualquier persona que busque apoyo financiero debe contactarlos en lfdsloans@outlook.com o lfdsloans@lemeridianfds.com. El Sr. Benjamin también está en whatsapp 1-989-394-3740 para facilitar las cosas a cualquier solicitante.

    ResponderBorrar