Tema 7: Proceso de Minería de Datos
Es fundamental conocer el
proceso de minería de datos, de manera que sea posible extraer el conocimiento, a
partir de patrones detectados por medio de algoritmos, para así aplicar ese
conocimiento a la inteligencia de negocios.
El
Proceso de Minería de datos, consta de los siguientes pasos:
- Definir el problema: Se deciden cuáles van a ser los objetivos (aquellas que se quieren predecir o inferir), las variables independientes y la selección de registros (datos) a utilizar.
- Preparar los datos: Análisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o diagramas de dispersión. Búsqueda de valores atípicos (outliers) y ausencia de datos.
- Explorar los datos: Transformación o pre procesamiento del conjunto de datos de entrada: en éste paso, se normalizan los datos a una misma escala. También se decide cómo se van a tratar datos faltantes, atípicos o dudosos. Una posibilidad es tratarlos como un tipo de dato especial o bien se decide descartarlos.
- Generar modelos: Selección y aplicación de técnicas de minería de datos: se construye un modelo, el cual será utilizado sobre los datos para predecir las clases mediante clasificación o para descubrir grupos similares mediante segmentación.
- Explorar y validar los modelos: Se lleva a cabo la extracción de conocimiento, una vez aplicado el paso anterior, se buscan patrones de comportamiento en los valores de las variables del problema de asociación entre dichas variables.
- Implementar y actualizar los modelos: Se realiza la Interpretación y evaluación de datos, ya que el modelo debe ser validado comprobando que las conclusiones arrojadas son válidas y satisfactorias. Si el modelo final no supera ésta evaluación, el proceso puede repetirse desde el principio o a partir de cualquiera de los pasos anteriores.
A
continuación un ejemplo utilizando la herramienta de minería de datos llamada
Weka
En figura 1 se describen las
relaciones existentes entre cada paso de un proceso de generación de un modelo
de minería de datos, aunque la ilustración es circular esto no significa que
cada paso conduzca directamente al siguiente.
Figura 1: Visualización del proceso
de generación de un modelo de minería de datos.
La creación de un modelo de
minería de datos es un proceso dinámico e iterativo.
Preparación
de los Datos
Nativamente Weka trabaja con
un formato denominado arff, acrónimo de Attribute Relation File Format. Este formato está compuesto
por una estructura claramente diferenciada en tres partes:
- Cabecera: Se define el nombre de la relación.
Por
ejemplo: @relation otorgar_credito
- Declaraciones de atributos: En esta sección se declaran los atributos que compondrán el archivo junto a su tipo. La sintaxis es la siguiente:
Dónde:
<nombre-del-atributo>
es de tipo string.
<Tipo> acepta diversos
tipos, estos son:
·
NUMERIC Expresa números reales.
·
INTEGER Expresa números enteros.
·
DATE Expresa fechas.
·
STRING Expresa cadenas de texto.
Por
ejemplo:
@attribute edad numeric
@attribute sexo {f,m}
@attribute ingresos numeric
@attribute estadocivil
{soltero,casado,divorciado,viudo}
@attribute hijos numeric
@attribute ctaAhorro {si,no}
@attribute hipoteca {si,no}
@attribute aprobado {si,no}
- Sección de datos: Se declaran los datos que componen la relación separando con comas los atributos y con saltos de línea las relaciones.
La sintaxis es la siguiente:
Por ejemplo:
Por ejemplo:
@data
28,m,20000,soltero,0,si,no,si
Los datos van en el orden en
que se establecieron los atributos. Una vez conocido el formato de los datos
soportado por el Weka, se pasará al confeccionado del archivo con extensión
arff.
La información puede ser recabada
en documentos de texto plano (.txt, .doc, etc.) para su posterior
transformación a un archivo de formato específico de datos legible por el Weka,
el formato .arff.
Exportación
de los Datos a Weka
Primero que nada necesitamos
cargar la información ya sea desde un archivo de texto, una base de datos, una
pág. Web, etc.
A continuación se
visualizará el archivo generado anteriormente ver figura 2.
Figura 2: Visualización del proceso
de generación de un modelo de minería de datos.
Generación
Modelos
A continuación se visualizan
distintos análisis de las variables referentes a los estados de actividad
de los individuos de la provincia de corrientes. En el gráfico de la fig. 3
se puede visualizar el proceso de selección de atributos.
Figura 3: Proceso de selección de atributos.
Una ves selecionados los
atributos se puede proceder a la selección de clasificacion (en caso de ser
datos conocidos), o de cluster (en caso de ser datos desconocidos).
En el gráfico de la fig. 4
se puede visualizar la selección del algoritmo de clasificación de BayesNet.
Figura 4: Selección del algoritmo de
clasificación BayesNet.
Despues se ejecuta el
algoritmo precionado el boton de iniciar, en la figura 5 se obtienen los
resultados en la clasificación, los cuales se pueden ver marcados con un ovalo
rojo, en este caso nos muestra que de un total de 32 personas 20 si son aptas o
aprobadas para tener un crédito, mientras que 12 personas no son aptas para el
mismo.
Figura 5: Resultado de clasificación
utilizando BayesNet.
En este punto podemos
generar un grafo para ver la jerarquía, y los efectos de las condiciones. En la
figura 6 se muestra la opción de grafo y en la figura 7 se muestra el grafo
obtenido.
Figura 6: Selección de grafo.
Figura 7: Visualización de Grafo.
Al dar clic en cualquiera de
los grafos nos muestra los resultados obtenidos con forme al grafo padre que en
este caso es aprobado y al grafo seleccionado, en el siguiente figura 8 se
puede observar lo antes mencionado.
Figura 8: Visualización del
resultado con respecto al grafo estado civil.
Quiero compartir un testimonio sobre cómo el servicio de financiación Le_Meridian me ayudó con un préstamo de 2,000,000.00 USD para financiar mi proyecto de cultivo de marihuana, estoy muy agradecido y prometí compartir esta compañía de financiación legítima a cualquiera que esté buscando la manera de expandir su negocio. project.the company es una empresa de financiación del Reino Unido / EE. UU. Cualquier persona que busque apoyo financiero debe contactarlos en lfdsloans@outlook.com o lfdsloans@lemeridianfds.com. El Sr. Benjamin también está en whatsapp 1-989-394-3740 para facilitar las cosas a cualquier solicitante.
ResponderBorrar