sábado, 15 de mayo de 2010

MINERIA DE DATOS

1. Minería de datos?
La minería de datos se crea , por la aparición de nuevas necesidades y especialmente, por el reconocimiento de un nuevo potencial: el valor hasta ahora generalmente infrautilizado, de la gran cantidad de datos almacenados informáticamente en los sistemas de información de instituciones , empresas, gobiernos y particulares los datos pasan de ser un "producto" a ser una "materia prima" que hay que explotar para obtener el verdadero “producto elaborado" el conocimiento que ha de ser especialmente valioso para la ayuda en la toma de decisiones sobre el ámbito en el que se han recopilado o extraído los datos.
1.1 Nuevas necesidades
El aumento del volumen y variedades de información qué se encuentra informatizada en base de datos digitales y otras fuentes han crecido especialmente en las últimas décadas. Gran parte de esta información es histórica es decir representa transacciones o situaciones que se han producido aparte de su función de " memoria de la organización" la información histórica es útil para explicar el pasado entender el presente y predecir la información futura.
El resultado de la minería de datos son conjunto de reglas, ecuaciones arboles de decisión redes neuronales, grafos, probabilísticos los cuales pueden usarse para, por ejemplo, responder a cuestiones como ¿existe un grupo de clientes que se comportan de manera diferenciada? ¿Que secuenciación de tratamientos puede ser más efectiva para este nuevo síndrome? ¿Existen asociaciones entre los factores de riesgo para realizar un seguro de automóvil? etc.
1.2 El concepto de la minería de datos
Se define la minería de datos como el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la minería de datos es encontrar modelos inteligibles a partir de los datos, para que este proceso sea efectivo debería ser automático o semiautomático (asistido) y el uso de los patrones descubiertos debería ayudar a tomar decisiones más seguras que reporten, por tanto, algún beneficio ala organización
Por lo tanto, dos son los retos de la minería de datos por un lado trabajar con grandes volúmenes de datos procedentes mayoritariamente de sistemas de información, con los problemas que ello conlleva (ruido, datos ausentes, intratabilidad, volatilidad de los datos) y por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y útil.
1.3 Tipo de datos
En principio esta puede aplicarse a cualquier tipo de información, siéndolas técnicas de la minería diferentes para cada una de ellas

1.3.1 Bases de datos relacionales
Una base de datos relacional es un conjunto de relaciones (tablas). Cada tabla se compone de un conjunto de atributos (columnas o campos) y pueden contener un gran número de filas (registros o filas). Cada tupla representa un objeto, que se describe a través de los valores de sus atributos y se caracteriza por una clave única o primaria que lo identifica.
Una de las principales características de bases de datos relacionales es la existencia de un régimen de asociados, a saber, los datos deben obedecer a una estructura y, por tanto estructurada.
La integridad de los datos se expresa a través de restricciones de integridad. Estos pueden ser de dominio (restringido el valor de un atributo puede tomar con respecto a su dominio y que puede tomar valores nulos o no), identidad (por ejemplo, la clave principal debe ser único) y referencial (los valores de claves externas deben coincidir con uno y sólo un valor de la tabla de referencia).
En esta presentación tabular, es importante conocer los tipos de los atributos y, aunque en base de datos existen muchos tipos de datos (enteros, reales, fechas, cadena de texto, etc.), desde el punto de vista de las técnicas de minería de datos más habituales nos interesa distinguir solo entre dos tipos, numéricos y categóricos.
Los atributos numéricos contienen valores enteros o reales. Por ejemplo atributos como el salario o la edad son numéricos.
Los atributos categóricos o nominales toman valores en un conjunto finito y preestablecido de categorías. Por ejemplo, atributos como el sexo (H, M), el nombre del departamento (Gestión, Marketing, Ventas) son categóricos.
1.3.2 otros tipos de bases de datos
Aunque las bases de datos relacionales son las más utilizadas hoy en día, existen aplicaciones que requieren otros tipos de organización de la información, otros tipos de base de datos que contienen datos complejos son:
Las base de datos espaciales contienen información relacionada con el espacio físico en un sentido amplio (una ciudad, una región montañosa, un atlas cerebral…). Estas bases de datos incluyen datos geográficos, imágenes medicas, redes de transporte o información de tráfico, etc. Donde las relaciones espaciales son muy relevantes.
Las bases de datos temporales almacenan datos que incluyen muchos atributos relacionados con el tiempo o en el que este es muy relevante. Estos atributos pueden referirse a distintos instantes o intervalos temporales. En este tipo de bases de datos las técnicas de minería de datos pueden utilizarse para encontrar las características de la evolución o las tendencias del cambio de distintas medidas o valores de la base de datos.
Las bases de datos documentales contienen descripciones para los objetos (documentos de texto) que pueden ir desde las simples palabras clave a los resúmenes. Estas bases de datos pueden contener documentos no estructurados (como una biblioteca digital de novelas) semi-estructurados (si se puede extraer la información por partes, con índices. Etc.) O estructurados (como una base de datos de fichas bibliográficas). Las técnicas de minería de datos pueden utilizarse para obtener asociaciones entre los contenidos, agrupar o clasificar objetos textuales.
Las bases de datos multimedia almacenan imágenes, audio y video. Soportan objetos de gran tamaño ya que, por ejemplo, los videos pueden necesitar varios gigabytes de capacidad para su almacenamiento. Para la minería de estas bases de datos también es necesario integrar los métodos de minería con técnicas de búsqueda y almacenamiento.

TOMADO DEL LIBRO INTRODUCCIÓN A LA MINERÍA DE DATOS
JOSE HERNANDEZ ORALLO
MARIA JOSE RAMIREZ QUINTANA
CESAR FERRI RAMIREZ
Departamento de sistemas y computación
Universidad Politécnica de Valencia

http://www.bases.unal.edu.co:2127/lib/unalbogsp/edf.action?p00=DATA%20MINING&docID=10311813