Minería de datos: A pico y pala con la información.

La minería de datos o Datamining es el proceso de detectar la información procesable de grandes conjuntos de datos, utilizando el análisis matemático para deducir los patrones y tendencias que existen en los datos.Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de datos debida a que las relaciones entre ellos son demasiado complejas o porque hay demasiados datos.

Básicamente, la necesidad de estos procesos surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

Los patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

patrones y tendencias del modelo de mineria de datos

No obstante, la generación de un modelo de minería de datos forma parte de un proceso mayor que incluye desde la formulación de preguntas acerca de los datos y la creación de un modelo para responderlas, hasta la implementación del modelo en un entorno de trabajo. Este proceso se puede definir mediante seis pasos básicos siguientes:

pasos-modelo-mineria-de-datos

El proceso es cíclico, lo que significa que la creación de un modelo de minería de datos es un proceso dinámico e iterativo.

Una vez que ha explorado los datos, podemos descubrir que resultan insuficientes para crear los modelos de minería de datos adecuados y que, por tanto, debemos buscar más datos.O bien, podemos generar varios modelos y descubrir entonces que no responden adecuadamente al problema planteado cuando los definimos y que, por tanto, debemos volver a definir el problema.Es posible que debamos actualizar los modelos una vez implementados debido a que haya más datos disponibles o puede, incluso que haya que repetir cada paso del proceso muchas veces para crear un modelo adecuado.

En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra “toma de decisiones”.

En un artículo de recomendada lectura, Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos Molina proporciona una visión muy clarificadora sobre la minería de datos, incluyendo interesantes ejemplos de aplicaciones de la misma.