Etiqueta: Mineria de datos

Evolución de herramientas de minería de datos (segunda parte)

Evolución de herramientas de minería de datos (segunda parte)

El investigador Jasso, en la tesis de maestría en ciencias de la computación escrita el año 2008 con el título “Sistema para explotar servicios de minería de datos a través de la Web”, menciona que algunas de las herramientas de segunda generación son: IlliMine, Rattle, Rapid Miner y Knime. El grupo de investigación en minería de datos de la Universidad de Illinois, el año 2006 libera la versión 1.1.0 de IlliMine, la cual constituye otra herramienta de minería de datos de segunda generación, IlliMine es un paquete libre, implementado en el lenguaje de alto nivel C++ y desarrollada por el Departamento de Ciencias Computacionales de la Universidad de Illinois en conjunto con el Laboratorio de Investigación de Datos y Sistemas de Información de la universidad citada. IlliMine incluye: (1) Algoritmos de cubos de datos, que constituyen una técnica de manipulación de datos utilizando estructuras de matrices multidimensionales, (2) asociación, (3) minería de patrones secuenciales, la cual es una técnica de extracción de patrones en eventos o sucesos secuenciales donde el factor tiempo juega un papel principal, (4) minería de patrones gráficos, la que constituye una técnica de extracción de patrones de datos representados a través de grafos, y (5) clasificación.

La herramienta analítica para el aprendizaje fácil “Rattle”, fue liberada por Williams en su versión 2.2.74 el año 2007, Rattle es una herramienta libre de minería de datos usada para analizar colecciones de datos muy grandes. Rattle presenta resúmenes estadísticos y visuales de datos, transforma los datos en formas que pueden ser fácilmente modeladas, construye modelos supervisados y no supervisados a partir de los datos, presenta el rendimiento de los modelos gráficamente y da una puntuación a los conjuntos de datos nuevos. A través de una interfaz de usuario simple y lógica basada en Gnome puede ser usado para realizar proyectos de minería de datos. Es posible también realizar proyectos de minería de datos más sofisticados haciendo uso del lenguaje estadístico de licencia libre “R”.

Mierswa y sus colegas, en el artículo publicado el año 2006 con el título “Yale: Prototipado rápido para tareas complejas de minería de datos”, mencionan que Rapid Miner, más formalmente conocido como Yale, es una de las principales herramientas para prototipado y minería de datos de licencia pública a nivel mundial. Desarrollado puramente en Java, contiene una extensión para su fácil uso desde programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y métodos los cuales pueden ser combinados de manera flexible y anidada arbitrariamente. Yale abstrae sus métodos bajo el concepto de operadores contando con más de cuatrocientos y ofreciendo un enfoque de combinación de operadores como un grafo dirigido para representar el proceso de descubrimiento del conocimiento. En este enfoque cada vértice del árbol corresponde a un operador sencillo, permitiendo a los usuarios la fácil incorporación de ciclos dentro de sus experimentos. Los ciclos son esenciales para muchas tareas como optimización de parámetros, selección de características o la aplicación de métodos de aprendizaje iterativos. Knime, en su versión 1.3.1, liberado por la universidad alemana de Konstanz el año 2007, es una plataforma modular de datos que permite al usuario crear visualmente flujos de datos. Permite ejecutar selectivamente algunas o todas los pasos del análisis para posteriormente consultar los resultados a través de vistas interactivas sobre datos y modelos. La versión base de Knime incorpora más de cien nodos de procesamiento para entrada y salida de datos, preprocesamiento y limpieza, modelado, análisis y minería de datos entre otras cosas. Incluye todos los módulos de análisis de Weka y plugins adicionales que permiten que scripts en el lenguaje R sean ejecutados, ofreciendo vasto acceso a bibliotecas de rutinas estadísticas.

De manera subsecuente, aparecieron las herramientas de tercera generación, que se enfocan en resolver las limitantes de trabajar sobre un modelo cerrado, esto es localmente, como lo hacen las herramientas de la segunda generación. Algunos ejemplos de herramientas de la tercera generación son los siguientes: (1) Grid Weka, reportado por Khoussainov y sus colegas, en el artículo publicado el año 2004 titulado “Weka de rejilla habilitada: Un juego de herramientas para el aprendizaje automático en la rejilla”, es una herramienta desarrollada en la Universidad de Dublín que modifica Weka para permitir el uso de múltiples recursos computacionales mientras se ejecuta el análisis de datos. En este sistema, un conjunto de tareas de minería de datos pueden ser distribuidas a través de muchas computadoras en un ambiente ad-hoc o cerrado. (2) Guo y sus colegas, en el artículo publicado el año 2002 con el título “Red de descubrimiento: Hacia una rejilla para el descubrimiento de conocimiento”, proponen una arquitectura, denominada “Red de descubrimiento”, para construir un sistema colaborativo y distribuido de descubrimiento de conocimiento dentro de un ambiente de cómputo en rejilla. Este es un enfoque genérico originado de la necesidad de procesos de descubrimiento de conocimiento en la industria bioinformática, donde procesos complicados de análisis de datos son construidos usando un enfoque basado en tuberías. (3) En el artículo publicado el año 2003 con el título “Hacia una arquitectura de servicio abierto para minería de datos en la rejilla”, Tjoa y sus colegas presentan una arquitectura de software basada en servicio para minería de datos distribuida y de alto rendimiento en ambientes de rejilla y su implementación llamada GridMiner. En este trabajo presentan dos modelos de ejecución para el servicio de minería de datos. El primero es una adaptación a la rejilla de la herramienta Weka a la que llamaron minería de datos centralizada y el segundo es una versión distribuida del mismo que hace uso de los recursos de hardware y software distribuidos unificados dentro de la rejilla.

 

Guillermo Choque Aspiazu
www.eldiario.net
30 de Noviembre de 2015

Evolución de herramientas de minería de datos (primera parte)

Evolución de herramientas de minería de datos (primera parte)

En la tesis de grado titulada “Minería de datos aplicada al análisis de la deserción en la Carrera de Analista en Sistemas de Computación”, escrita por el investigador Pautsch en el año 2009, se menciona que el concepto de minería de datos no es nuevo, desde los años 1960, los estadísticos, manejaban términos como “pesca de datos” o “arqueología de datos”. La idea principal era encontrar correlaciones sin una hipótesis previa en base de datos con ruido. Tampoco ninguno de los modelos estadísticos presentes en la minería de datos es nuevo. Los árboles de decisión y de regresión son utilizados desde los señalados años 1960. Las bases de reglas fueron popularizadas durante el auge de los sistemas expertos en los años1980 y las redes neuronales se conocen desde los años 1940, pero han sido necesarios varios años de desarrollo para que fueran utilizables de manera sencilla. Fue a principios de la década de los años 1980 que Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de minería de datos y descubrimiento del conocimiento en bases de datos. Precisamente Piatetsky-Shapiro, en el libro publicado el año 1991 con el título “Descubrimiento de conocimiento en bases de datos”, especifica que la minería de datos se define formalmente como “un conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o comportamientos y descubrir modelos previamente desconocidos”. Molina, en el artículo publicado el año 2001 con el título “Torturando a los datos hasta que confiesen”, menciona que, desde el punto de vista empresarial los términos minería de datos y extracción del conocimiento, son tratados como sinónimos, y se los define como: “La integración de un conjunto de áreas que tienen como propósito la identificación de conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”.

El investigador Jasso, en la tesis de maestría en ciencias de la computación escrita el año 2008 con el titulo “Sistema para explotar servicios de minería de datos a través de la Web”, menciona que la minería de datos puede ser vista como una infraestructura que utiliza una selección de diferentes algoritmos y métodos estadísticos para encontrar patrones y tendencias interesantes y novedosas en grandes bases de datos. Entrando en el contexto del artículo propuesto, Shaikh Ali, en el artículo publicado el año 2005 con el título “Composición de servicios Web para minería de datos distribuida”, menciona que a lo largo de la historia de las herramientas de minería de datos, podrían apreciarse tres fases o etapas de su evolución, a estas etapas se las denomina también generaciones para cruzarlas con el concepto mismo de evolución de las herramientas de la minería de datos.

Las herramientas de la primera generación ofrecen típicamente a los usuarios un algoritmo simple de minería de datos que opera sobre un conjunto de datos almacenados de manera local. Algunos ejemplos incluyen el uso de algoritmos de clasificación como el C4.5, planteado por Ross Quinlan en el libro publicado en año 1993 con el título “C4.5: Programas para minería de datos”; algoritmos de agrupamiento como el K-means, descrito por McQueen en el artículo publicado el año 1967 con el título “Algunos métodos para la clasificación y el análisis de multivariaciones”, y otros algoritmos basados en reglas de asociación. Tales herramientas fueron presentadas como programas independientes, obteniendo sus datos de entrada desde la línea de comandos o vía un archivo de configuración.

Las herramientas de la segunda generación combinan una colección de diferentes algoritmos de minería de datos sobre un marco de trabajo común, y permiten a los usuarios proveer datos de entrada de varias fuentes de datos. Algunas de estas herramientas son: Weka, IlliMine, Rattle, Rapid Miner y Knime. Según Witten y Frank, en el libro publicado el año 2000 con el título “Minería de datos: Herramientas practicas de aprendizaje automático con implementaciones Java”, Weka, desarrollado por la Universidad de Waikato en Nueva Zelanda, es un sistema escrito en Java y distribuido bajo los términos de la licencia pública GNU. Contiene una colección del estado del arte de los algoritmos de aprendizaje automático y herramientas de pre-procesamiento de datos escritos en Java. Proporciona un soporte extenso para el proceso completo de minería de datos, incluyendo la preparación de los datos de entrada, la evaluación de los esquemas de aprendizaje, la visualización de los datos de entrada y de los resultados del aprendizaje. Esta herramienta es accedida comúnmente a través de una interfaz común para que sus usuarios puedan comparar diferentes métodos e identificar esos que sean más apropiados para el problema a tratar. Puede ser ejecutado desde casi cualquier plataforma y ha sido probado sobre los sistemas operativos Windows, Linux y Macintosh. En Weka, todo el proceso de minería de datos se realiza en una sola computadora, dado que los algoritmos pueden ser ejecutados sólo localmente.

Jasso, en la tesis de maestría citada, menciona que el objetivo principal de Weka son los algoritmos de clasificación, los cuales mapean un conjunto de instancias con base en un conjunto finito de clases. Cada instancia de los datos es descrita por los valores de sus atributos. Por ejemplo, predecir si va a llover basado en la observación del cielo, la temperatura del aire, la humedad y el viento puede ser visto como una tarea de clasificación. La meta del proceso de obtención de un clasificador, es derivar un clasificador de un conjunto etiquetado de datos, un conjunto de instancias de datos que tienen asignada su clase correspondiente. La idea es que un clasificador obtenido del conjunto de datos etiquetados pueda ser utilizado para predecir las clases de instancias de datos futuras.

 

Guillermo Choque Aspiazu
www.eldiario.net
12 de Octubre de 2015

Métodos de la minería de datos

Métodos de la minería de datos

Las bases de datos surgieron como respuesta a la necesidad de almacenar datos en un sistema de cómputo. Al inicio de la era de las computadoras, década de los años 1960, la dimensión de las bases de datos se limitaba a unos cuantos kilobytes, sujeto a las restricciones tecnológicas de la época, por lo que su aplicación a diversos dominios tanto científicos como del mundo real fue limitado. Según los investigadores Witten y Frank, en el libro escrito el año 2005 relacionado con la “minería de datos, técnicas y herramientas de aprendizaje automático”, con el avance de la tecnología, se pasa de almacenar unos cuantos kilobytes a cientos de gigabytes, lo que ha permitido extender su uso a dominios que antes eran impensables. No obstante, el aumento en la dimensión de las bases de datos ha traído como consecuencia la necesidad de nuevas herramientas de administración y análisis que permitan lidiar con la vasta cantidad de datos. El análisis de datos es una tarea que consiste en buscar o encontrar tendencias o variaciones de comportamiento en los datos, de tal manera que esta información resulte de utilidad para los usuarios finales. A estas tendencias o variaciones se las conoce como patrón. Si los patrones son útiles y de relevancia para el dominio, entonces se le llama conocimiento. En un principio, el análisis se realizaba de forma manual, empleando técnicas estadísticas. Sin embargo, actualmente esta forma de análisis resulta inviable por la gran cantidad de datos que puede contener una base de datos moderna, además de que existe una gran cantidad de formatos para los datos, como tablas, secuencias, grafos, imágenes, audio, lo cual aumenta la complejidad de un análisis manual.

Bajo estas circunstancias es como surge la minería de datos, que es un proceso automático ó semiautomático que busca descubrir patrones ocultos en un conjunto de datos y que además, sean potencialmente útiles para los usuarios de la base de datos. Según Mitchel, en el libro escrito el año 1997 sobre “aprendizaje automático”, en la minería de datos se contemplan diversas estrategias para identificar diferentes tipos de patrones, como son árboles de clasificación, redes neuronales, redes bayesianas, técnicas de asociación, entre otros. El objetivo en todo proceso de minería de datos es obtener patrones de interés para el usuario final. Para lograrlo, es necesario preparar correctamente a los datos para procesarlos, elegir un método adecuado para extraer los patrones deseados y finalmente, determinar cómo evaluar los patrones encontrados. Estas etapas han sido organizadas en un esquema conocido como el proceso de descubrimiento de conocimiento en base de datos, en el cual se identifican tres grandes bloques: pre-procesamiento, búsqueda/identificación de patrones y evaluación. Un patrón es interesante si es fácilmente entendible por las personas, potencialmente útil, novedoso o si valida alguna hipótesis que el usuario busca confirmar. Un patrón interesante normalmente representa conocimiento.

Según Perichinsky y sus colegas, en el artículo escrito el año 2003 sobre “evidencia taxonómica y robustez de la clasificación aplicando minería de datos inteligente”, se denomina minería de datos al conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos; y describir de forma automatizada modelos previamente desconocidos. El investigador Michalskí menciona que, en el libro escrito el año 1998 acerca de “minería de datos y aprendizaje automático”, el término minería de datos inteligente refiere específicamente a la aplicación de métodos de aprendizaje automático, para descubrir y enumerar patrones presentes en los datos, para estos, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. En la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad y es aquí donde aparece el concepto de minería de datos. Por su parte el investigador Hernández Orallo, en el texto escrito el año 2000 sobre “extracción automática de conocimiento de base de datos e ingeniería del software”, una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el primero supone que las hipótesis ya están construidas y validadas contra los datos, mientras que el segundo supone que los patrones e hipótesis son automáticamente extraídos de los datos.

Según el investigador Morales, en el documento escrito el año 2003 sobre “descubrimiento de conocimiento en bases de datos”, la minería de datos es un proceso completo de descubrimiento de conocimiento que involucra varios pasos: (1) Entendimiento del dominio de aplicación, el conocimiento relevante a utilizar y las metas del usuario. (2) Seleccionar un conjunto de datos en donde realizar el proceso de descubrimiento. (3) Limpieza y preprocesamiento de los datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, valores fuera de rango, valores inconsistentes y otros. (4) Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, reglas de asociación, etc. (5) Selección de los algoritmos a utilizar. (6) Transformación de los datos al formato requerido por el algoritmo especifico de explotación de datos, hallando los atributos útiles, reduciendo las dimensiones de los datos, etc. (7) Llevar a cabo el proceso de minería de datos para encontrar patrones interesantes. (8) Evaluación de los patrones descubiertos y presentación de los mismos mediante técnicas de visualización. Quizás sea necesario eliminar patrones redundantes o no interesantes, o se necesite repetir algún paso anterior con otros datos, con otros algoritmos, con otras metas o con otras estrategias. (9) Utilización del conocimiento descubierto, ya sea incorporándolo dentro de un sistema o simplemente para almacenarlo y reportarlo a las personas interesadas.

La minería de datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo existente a un conjunto de datos. Las herramientas existentes actualmente incluyen mecanismos para la preparación de los datos, su visualización y la interpretación de los resultados. Muchas de las herramientas funcionan bien en espacios de pocas dimensiones con datos numéricos, pero sus limitaciones comienzan a aparecer en espacios de mayores dimensiones o con datos no numéricos. Según el equipo de investigadores conformado por Thrun, Faloustos, Mitchell y Wasserman, en el artículo escrito el año 1998 acerca de “aprendizaje automatizado y descubrimiento: estado del arte y tópicos de investigación”, alguno de los métodos de minería de datos que resuelven distintos problemas inherentes a la misma son los siguientes: (1) Aprendizaje activo/Diseño experimental. El aprendizaje activo, por el lado de la inteligencia artificial, y el diseño experimental, por el lado de la estadística, tratan de resolver el problema de la elección del método a aplicar durante el aprendizaje. (2) Aprendizaje acumulativo. Muchas bases de datos crecen continuamente, en este entendido, aprender a partir de bases de datos de este tipo es difícil ya que los datos deben ser analizados acumulativamente a medida que se incorporan a la base. (3) Aprendizaje multitarea. Se aplica en dominios que se caracterizan por pertenecer a familias de problemas de aprendizaje similares. (4) Aprendizaje a partir de datos tabulados y no tabulados. En muchas aplicaciones el problema no está en la obtención de los datos, sino en la tabulación de los mismos. (5) Aprendizaje relacional. En muchos problemas de aprendizaje las entidades no se describen a partir de un conjunto estático de atributos, sino a partir de las relaciones entre entidades. En las bases de datos inteligentes encontrar patrones o relaciones entre entidades es un problema primordial.

El subconjunto de métodos que complementa el trabajo realizado por Thrun, Faloustos, Mitchell y Wasserman es: (6) Aprendizaje a partir de grandes bases de datos. Muchas bases de datos son demasiado grandes como para ser leídas y procesadas por una computadora más de una vez. Lo cual imposibilita el uso de algoritmos que requieran múltiples pasadas sobre los datos. Debe afrontarse entonces, el desafío de encontrar algoritmos inteligentes que sean escalables eficientemente a grandes bases de datos. (7) Aprendizaje a partir de bases de datos extremadamente pequeñas. En el otro extremo, existen también bases de datos que son demasiado pequeñas para los algoritmos existentes. Debe encontrarse entonces un método que trabaje eficientemente con un número limitado de datos, o bien, que se base en el conocimiento previo. (8) Aprendizaje con conocimientos previos. En muchos casos, se poseen conocimientos efectivos acerca del fenómeno en estudio. Deben existir métodos capaces de incorporar conocimientos previos tanto abstractos, como diversos o inciertos. (9) Aprendizaje a partir de datos de distintos tipos. Muchos juegos de datos contienen varios tipos de datos. La gran mayoría de los algoritmos actuales sólo pueden trabajar con un único tipo de datos, con lo cual deben encontrarse métodos capaces de manejar los distintos tipos o formatos de datos presentes en una base de datos. (10) Aprendizaje de relaciones casuales. Gran parte de los algoritmos de aprendizaje detectan la correlación entre los datos, pero son incapaces de determinar o modelar las casualidades, y, por lo tanto, fallan al tratar de predecir algunos efectos externos. Deben diseñarse, entonces, algoritmos que incorporen las casualidades. (11) Visualización y minería de datos interactiva. En muchos casos, la minería de datos es un proceso interactivo, en el cual el análisis de datos automático se mezcla con las decisiones de control de un experto de campo. Deben diseñarse herramientas que contemplen el intercambio entre estas dos áreas.

Referencias Bibliográficas

  • Hernández Orallo J. (2000) Extracción Automática de Conocimiento de base de datos e ingeniería del software. Programación declarativa e ingeniería de la programación.
  • Michalski R., I. Bratko, M. Kubat (1998) Machine Learning and data mining: Methods and Applications. Wiley & Sons Ltd., EE.UU.
  • Mitchel Tom M. (1997) Machine Learning. McGraw-Hill.
  • Morales E. (2003) Descubrimiento de Conocimiento en Bases de Datos.
  • Perichinsky, G., M. Servente, A. Servetto, R. García-Martínez, R. Orellana, A. Plastin (2003) Taxonomic Evidence and Robustness of the Classification Applying Intelligent Data Mining. Proceedings del VIII Congreso Argentino de Ciencias de la Computación. Pág. 1797-1808.
  • Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. (1998) Automated Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field. CMU-CALD-98-100, Center for Automated Learning and Discovery, Carnegie Mellon University, Pittsburgh, EE.UU.
  • Witten Ian H. and Frank Eibe (2005) Data Mining, Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers. Second Edition.

 

Guillermo Choque Aspiazu
http://www.eldiario.net
Marzo 19 de 2012
Minería de datos en la inteligencia de negocios

Minería de datos en la inteligencia de negocios

Las sociedades modernas se caracterizan por estar sometidas a procesos de cambio de naturaleza estructural, continuado y relativamente rápido. La creciente influencia social del progreso científico-tecnológico, junto con el carácter abierto de las economías y el considerable aumento en el grado de internacionalización en las relaciones económicas y sociales, constituyen tan sólo algunas de las causas que, junto con sus interacciones, permiten explicar ese estado de cambio permanente en el que está instalado el ser humano. Cada organización es distinta en tamaño, estructura, negocio y procesos operativos. Sin embargo, todas coinciden en la necesidad de optimizar el uso de sus recursos y contar con una operación simplificada. Para lograr ese objetivo, la implementación de soluciones empresariales de distintas magnitudes y especificaciones, adaptadas a las necesidades de cada empresa, según su tipo de negocio, es una realidad actual.

Dentro del mundo de los negocios y, de las organizaciones en general, la “inteligencia de negocios”, es un concepto respaldado por una nueva manera de hacer las cosas, posible, gracias a los avances de los sistemas de información y las tecnologías de la información. La información es un factor crítico para el éxito empresarial, una información cada día más abundante y diversa, procedente de múltiples fuentes, que llegan en diferentes formatos, que hay que recoger, ordenar, explotar, y manipular para obtener un valor añadido, forma parte de la estrategia competitiva de las organizaciones. El uso de la información como un arma estratégica, con soporte de herramientas informáticas, conteniendo aplicaciones analíticas, que ayudan a las organizaciones a maximizar su rendimiento en los negocios, generando la eficiencia operativa, forma parte de la inteligencia del negocio. Así mismo, la gestión del conocimiento ayuda a obtener mayor comprensión y entendimiento del entorno y de los procesos desde la propia experiencia en las personas y organizaciones. En la primera década del siglo veintiuno, las empresas acometen una gran variedad de iniciativas para alcanzar sus objetivos, bajo la influencia de cinco elementos fundamentales: Velocidad de cambio, innovación de nuevos modelos de negocio, nuevas estructuras de relaciones entre las empresas, sus clientes y asociados, la conectividad de personas, organizaciones y países, y el valor del conocimiento residente en la empresa.

En los últimos años, ha existido un gran crecimiento en las capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la minería de datos, que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejore la comprensión de los fenómenos que rodean al ser humano. Hoy, más que nunca, los métodos analíticos avanzados son el arma secreta de muchos negocios exitosos. Empleando métodos analíticos avanzados para la explotación de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfacción del cliente

La minería de datos ha emergido como una de las tecnologías más poderosas de la inteligencia de negocios. El término minería de datos se refiere a un amplio espectro de técnicas de modelado matemático y herramientas de software utilizadas para encontrar patrones en los datos y construir modelos a partir de los mismos. Se considera a la minería de datos como una etapa fundamental en el descubrimiento de conocimiento a partir de datos. La minería de datos es una herramienta tecnológica que desarrolla ventajas competitivas, debido a que permite extraer conocimiento útil y novedoso dentro de las bases de datos en las organizaciones, facilitando así la toma de decisiones, ya que presenta información más adecuada, lo que permite diseñar estrategias más personalizadas y dinámicas que se adapten a los constantes cambios del entorno, sector o industria. El uso de la minería de datos se hace evidente en diversas áreas del conocimiento dado que: (1) Contribuye a la toma de decisiones tácticas y estratégicas. (2) Genera modelos descriptivos para visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales, tales como un manejo de costos, aumentos de rentabilidad o ingresos, gestión de fraudes, minimización de riesgos, y otros útiles para guiar la estrategia y planificación de una organización.

Algo peor que no tener información disponible es tener mucha información y no saber qué hacer con ella. La “inteligencia de negocios” es la solución a ese problema, pues por medio de dicha información puede generar escenarios, pronósticos y reportes que apoyen a la toma de decisiones, lo que se traduce en una ventaja competitiva. La clave para la inteligencia de negocios es la información y uno de sus mayores beneficios es la posibilidad de utilizarla en la toma de decisiones. En la actualidad hay una gran variedad de software de inteligencia de negocios con aplicaciones similares que pueden ser utilizados en las diferentes áreas de la empresa, tales como, ventas, marketing, finanzas, etc. Son muchas las empresas que se han beneficiado por la implementación de una sistema de inteligencia de negocios, además se pronostica que con el tiempo se convertirá en una necesidad de toda empresa.

La inteligencia de negocios se puede definir como el proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos. Dentro de la categoría de bienes se incluyen las bases de datos de clientes, información de la cadena de suministro, ventas personales y cualquier actividad de marketing o fuente de información relevante para la empresa. La inteligencia de negocios apoya a los tomadores de decisiones con la información correcta, en el momento y lugar correcto, lo que les permite tomar mejores decisiones de negocios. La información adecuada en el lugar y momento adecuado incrementa la efectividad de cualquier empresa. La tecnología de inteligencia de negocios no es nueva, ha estado presente de varias formas por lo menos en los últimos treinta años, comenzando por generadores de reportes y sistemas de información ejecutiva en los años 1980. Entiéndase como sinónimos de tecnología de inteligencia de negocios los términos aplicaciones, soluciones o software de inteligencia de negocios.

Para comprender mejor el concepto de inteligencia de negocios se cita el siguiente ejemplo. Una franquicia de hoteles a nivel nacional que utiliza aplicaciones de inteligencia de negocios para llevar un registro estadístico del porcentaje promedio de ocupación del hotel, así como los días promedio de estancia de cada huésped, considerando las diferencias entre temporadas. Con esta información los administradores de la cadena de hoteles pueden: (1) Calcular la rentabilidad de cada hotel en cada temporada del año. (2) Determinar quienes constituyen su segmento de mercado. (3) Calcular la participación de mercado de la franquicia y de cada hotel. (4) Identificar oportunidades y amenazas. Estas son sólo algunas de las formas en que una empresa u organización se puede beneficiar por la implementación de software de inteligencia de negocios, hay una gran variedad de aplicaciones que brindan a la empresa la habilidad de analizar de una forma rápida por qué pasan las cosas y enfocarse al análisis de patrones y amenazas.

Todas las soluciones de inteligencia de negocios tienen funciones parecidas, pero deben reunir al menos los siguientes componentes: (1) Multidimensionalidad. La información multidimensional se puede encontrar en hojas de cálculo, bases de datos, etc. Una herramienta de inteligencia de negocios debe ser capaz de reunir información dispersa en toda la empresa e incluso en diferentes fuentes para así proporcionar a los departamentos la accesibilidad, poder y flexibilidad que necesitan para analizar la información. Por ejemplo, un pronóstico de ventas de un nuevo producto en varias regiones no está completo si no se toma en cuenta también el comportamiento histórico de las ventas de cada región y la forma en que la introducción de nuevos productos se ha desarrollado en cada región en cuestión. (2) Minería de Datos. Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Pero el éxito de los negocios depende por lo general de la habilidad para ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de minería de datos pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no son muy evidentes. (3) Agentes. Los agentes son programas que aparentemente piensan. Ellos pueden realizar tareas a un nivel muy básico sin necesidad de intervención humana. Por ejemplo, un agente puede realizar tareas un poco complejas, como elaborar documentos, establecer diagramas de flujo, etc. (4) Almacenes de Datos. Es la respuesta de la tecnología de información a la descentralización en la toma de decisiones. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Enero 17 de 2011
Descubrimiento de conocimiento en bases de datos

Descubrimiento de conocimiento en bases de datos

En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo de la ciencia positiva. En él es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta “intuición” resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte informático. En el fondo de todas las investigaciones sobre inducción en bases de datos subyace la idea de automatizar ese paso inductivo.

Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtener cierta información útil, pero no inducir relaciones cualitativas generales, o leyes, previamente desconocidas; para esto se requieren técnicas de análisis inteligente que todavía no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles y el conocimiento extraído de los mismos. Pero cada vez más investigaciones dentro de la inteligencia artificial están enfocadas a la inducción de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de interés: la minería de datos, que incluye los nuevos métodos matemáticos y técnicas para el análisis inteligente de datos. La minería de datos surge a partir de sistemas de aprendizaje inductivo en computadoras, al ser aplicados a bases de datos, y su importancia crece de tal forma que incluso es posible que, en el futuro, los sistemas de aprendizaje se usen de forma masiva como herramientas para analizar datos a gran escala.

El descubrimiento implica observar, recoger datos, formar hipótesis para explicar las observaciones, diseñar experimentos, comprobar la corrección de las hipótesis, comparar los hallazgos con los de otros investigadores y repetir el ciclo. Las computadoras son capaces de observar y recoger datos, a veces mejor que los observadores humanos; los programas estadísticos pueden generar agrupaciones de forma automática entre los datos recogidos, aunque no siempre se corresponden con las clasificaciones hechas por los hombres; también hay programas con cierta capacidad para diseñar experimentos; y algunos sistemas robóticos realizan las manipulaciones necesarias en ciertos experimentos. Pero ninguna computadora reúne todas estas habilidades ni es capaz de adaptarse para aplicarlas a nuevos problemas; en este sentido, las computadoras no serían capaces de descubrir. Sin embargo, el descubrimiento no requiere realizar simultáneamente todas estas tareas. De igual modo que un investigador puede descubrir nuevo conocimiento a través del análisis de sus datos, una computadora puede examinar los datos disponibles o recogidos por otras computadoras y encontrar relaciones y explicaciones previamente desconocidas, realizando así descubrimiento en un sentido más restringido. La capacidad de las computadoras para realizar búsquedas exhaustivas de forma incansable entre grandes cantidades de datos ofrece buenas expectativas para obtener descubrimiento de forma automática.

El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con hipótesis concretas en lenguajes de consulta estructurados han sido insuficientes para explotar estos almacenes. El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el manejo de la información en sistemas de cómputo. La minería de datos es una disciplina que combina técnicas de la inteligencia artificial, el aprendizaje automático, la probabilidad, la estadística y las bases de datos para extraer información y conocimientos útiles desde grandes cantidades de datos. El término minería de datos no es nuevo, desde los años 1970 los estadísticos manejaban para explicar el significado de minería de datos, expresiones como: extracción de conocimientos, descubrimiento de información, cosecha de información, arqueología de los datos, procesamiento de patrones de los datos, inclusive minería de datos. La minería de datos es usada principalmente por los estadísticos. Aunque conceptualmente hay una diferencia entre minería de datos y descubrimiento de conocimiento en bases de datos, regularmente su uso es indistinto.

Se denomina descubrimiento de conocimiento en bases de datos al proceso global de búsqueda de nuevo conocimiento a partir de los datos de una base de datos. Este proceso incluye no sólo el análisis inteligente de los datos con técnicas de minería de datos, sino también los pasos previos, como el filtrado y preprocesado de los datos, y los posteriores, como la interpretación y validación del conocimiento extraído. Normalmente el término minería de datos lo usan estadísticos, analistas de datos, y la comunidad de sistemas de gestión de información, mientras que el descubrimiento de conocimiento en bases de datos es más utilizado en inteligencia artificial y aprendizaje automático.

El descubrimiento de conocimiento en bases de datos, es un área de investigación de naturaleza multidisciplinaria comprende áreas como: bases de datos, inteligencia artificial (aprendizaje automático, reconocimiento de patrones, sistemas de expertos), y estadística. El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran en los datos. Algunos términos que forman parte de la definición son los siguientes: (1) Proceso. Implica varios pasos los cuales incluyen pre-procesamiento de los datos, búsqueda de patrones, evaluación y mejoramiento del conocimiento. (2) No trivial. Significa que alguna búsqueda o inferencia está involucrada. (3) Patrón. Es un subconjunto de datos que comparten propiedades similares. (4) Datos. Es un conjunto de registros que aparecen en una base de datos. (5) Validez. Extraer patrones puede ser validado con base en alguna prueba de datos con algún grado de certeza. (6) Potencialmente útiles. Que sean de beneficio para el usuario. (7) Entendibles. El objetivo de descubrir conocimientos es identificar patrones y hacer esto entendible para los seres humanos.

El proceso de descubrimiento de conocimiento en bases de datos es un proceso iterativo e interactivo. Es iterativo porque el resultado de cada paso podría ser usado para previos pasos. Es interactivo porque el usuario o experto en el campo de aplicación debe estar involucrado para ayudar en la preparación de los datos, descubrimiento y evaluación de conocimiento. El descubrimiento de conocimiento en bases de datos en los últimos años ha ganado preponderancia, se viene desarrollando y utilizando ampliamente ya como una disciplina con un cuerpo teórico bastante estructurado. Uno de sus componentes más importantes es la minería de datos que integra técnicas de análisis de datos y extracción de modelos. La minería de datos se basa en varias disciplinas, algunas de ellas tan antiguas como la estadística. Por ello, lo novedoso no son tanto sus técnicas sino su fin, el cual es el de extraer conocimiento.

Los pasos en el proceso de descubrimiento de conocimiento en bases de datos son: (1) Desarrollar un entendimiento del dominio de la aplicación y el conocimiento apriori relevante, así como la identificación del objetivo del proceso de descubrimiento desde el punto de vista de cliente o usuario. (2) Integrar datos de diferentes tipos de información que pueden ser usados en el proceso de descubrir conocimiento. Así es que, fuentes de datos múltiples pueden ser combinados definiendo el conjunto para el cual es aplicado el proceso de “minería”. (3) Crear un conjunto de datos objetivo, seleccionando un conjunto de datos o un subconjunto de variables sobre los cuales el proceso de descubrir será interpretado. (4) Limpiar datos y efectuar un pre-proceso, este paso incluye las operaciones básicas tales como eliminar datos extremos, colectar la información necesaria para modelar o explicar el ruido y las decisiones sobre las estrategias para datos faltantes. (5) Transformar los datos o consolidarlos en forma apropiada para “explotar o minar” usando reducción de la dimensionalidad o métodos de transformación para reducir el número de variables efectivas bajo consideración o encontrar información invariante para los datos. (6) Seleccionar la tarea de minería de datos y algoritmos, se decide el objetivo del proceso de descubrimiento de conocimiento seleccionando la tarea de minería de datos para llevar a cabo dicho objetivo, esto incluye decidir qué modelo y parámetros son apropiados, además de adecuar los método de minería de datos con los requerimientos y todos los criterios del proceso de descubrimiento de conocimiento. (7) Aplicar los métodos de minería de datos para encontrar patrones interesantes de conocimiento. Los patrones pueden ser para una representación específica o un conjunto de tales representaciones tales como: reglas de clasificación, árboles de decisión, regresión, agrupamiento etc. La ejecución y los resultados de minería de datos dependen de los pasos precedentes. (8) La extracción de patrones son evaluados sobre algunas mediciones interesantes para identificar patrones representando conocimientos. (9) La extracción de conocimientos es incorporado en un sistema o simplemente la visualización y técnicas de representación de conocimientos son usadas para representar el conocimiento minado para su uso. Es menester señalar que también se observa y se resuelve conflictos con conocimientos previos.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Octubre 11 de 2010
Proceso de la minería de datos

Proceso de la minería de datos

La minería de datos es una de las temáticas más importantes en la investigación contemporánea. Sin embargo, años atrás, pocas personas habían escuchado este término. La minería de datos es el resultado de una evolución con una larga historia, el término mismo se ha insertado desde los años 1990 en el contexto de las tecnologías de información, algoritmia y desarrollo de software. Las líneas de desarrollo en el ámbito de minería de datos tienen su origen en tres conceptos importantes. El mayor de ellos es la estadística. “Sin estadísticas, no existiría la minería de datos, pues son los fundamentos de la mayoría de las tecnologías que utilizan este concepto”. La estadística clásica engloba conceptos como análisis de regresión, desviación estándar, varianza, análisis de grupos, intervalos de confianza, entre otros. Ciertamente, en las herramientas y técnicas utilizadas en minería de datos, el análisis de estadística clásica juega un rol sumamente importante.

La segunda línea de desarrollo de la minería de datos es la inteligencia artificial. Esta disciplina se encuentra basada en heurísticas, de forma opuesta a la estadística, pero debido a que su implementación necesitaba de computadoras con un poder de procesamiento alto, no fue práctica hasta los años 1980, cuando las máquinas comenzaron a venderse más baratas con un procesamiento cada vez mayor. La última familia que juega un papel en la historia de la minería de datos es el aprendizaje automático, que puede ser descrito como la unión de estadísticas e inteligencia artificial. Mientras la inteligencia artificial no era exitosamente comercial, sus técnicas fueron en gran importancia utilizadas para el aprendizaje automático. Su aplicación comenzó a jugar un papel importante en los años 1980 y 1990, tomando una ventaja significativa por su bajo costo en comparación con la inteligencia artificial. El aprendizaje automático puede considerarse parte de la evolución de la inteligencia artificial, porque reúne heurísticas con análisis estadístico avanzado. Con lo anterior se puede definir a la minería de datos como la unión de desarrollos históricos y recientes en estadística, inteligencia artificial y aprendizaje automático, pero se concluyes esta breve introducción con una definición más específica: “la minería de datos es un campo interdisciplinario que reúne las técnicas de aprendizaje automático, reconocimiento de patrones, estadística, bases de datos y visualización, para dirigirla a la extracción e interpretación de grandes bases de datos”.

La minería de datos es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a los almacenes de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. La minería de datos puede ser dividida en dos tipos de minería: (1) La minería de datos predictiva, que utiliza primordialmente técnicas estadísticas. (2) La minería de datos para descubrimiento de conocimiento, que usa principalmente técnicas de inteligencia artificial.

Las etapas primordiales de la minería de datos son las siguientes: (1) Colección de datos. Consiste en la recolección de los datos que intervienen en el estudio, ya sean tomados de las bases de datos operacionales o de archivos planos o con algún otro formato. Esta fase está directamente relacionada con el quehacer de la empresa, en el sentido en que se vale de los archivos operacionales con los cuales la institución soporta sus procesos. (2) Preparación de datos. Esta etapa tiene como finalidad el entendimiento del comportamiento de los datos, tarea que generalmente está acompañada por el uso de conceptos estadísticos que permiten describir las variables origen del estudio. Además comprende la aplicación de algunas tareas de preprocesamiento para reducir o eliminar la posible basura o inconsistencias en los datos y dejar limpios y listos los datos para posteriormente hacer la minería. Esta etapa comprende la limpieza, selección y transformación de los datos. (3) Extracción de Patrones.
Esta tercera etapa, consiste en la extracción del conocimiento por medio de la aplicación de las técnicas de minería de datos. La definición de los parámetros, y la ejecución iterada de los algoritmos permiten establecer el modelo final que intenta resolver el problema inicial. Dentro de los tipos de actividades de minería de datos se encuentran el análisis exploratorio o visualización, el modelado descriptivo o la segmentación y análisis de grupos, el modelado predictivo a través de la clasificación y regresión, el descubrimiento de reglas y patrones además de la recuperación basada en contenido. (4) Validación. Validar un modelo es la etapa más crítica en el proceso; puesto que permiten verificar la funcionalidad del modelo y establecer si las etapas anteriores fueron realizadas correctamente. Si un modelo no realiza un proceso de validación adecuado, puede deberse a problemas en los datos, transformaciones no apropiadas o técnicas de minería no adecuadas. La aplicación del modelo a otro conjunto de datos, el re-muestreo, son algunas de las técnicas más apropiadas en este sentido. A su vez el uso de algunas estrategias para mejorar la precisión, como en el caso de validación de modelos de clasificación y predicción, conforman esta etapa.

La minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

El proceso de minería de datos se compone de las siguientes fases: (1) Selección y preprocesado de datos. El formato de los datos contenidos en la fuente de datos, ya sea una base de datos o un almacén de datos, nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar algún algoritmo de minería sobre los datos “en bruto”. Mediante el preprocesado se filtran los datos, de forma que se eliminan valores incorrectos, no válidos, desconocidos y otros, según las necesidades y el algoritmo a ser utilizado, se obtienen muestras de los mismos o se reduce el número de valores posibles. (2) Selección de variables. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos, el primero compuesto por aquellos basados en la elección de los mejores atributos del problema y el segundo por aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia o heurísticos. (3) Extracción de conocimiento. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. (4) Interpretación y evaluación. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Una vez validado el modelo, si resulta ser aceptable, es decir que proporciona salidas adecuadas o con márgenes de error admisibles, éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Grupo de Minería de Datos, que se encuentra estandarizando el Lenguaje de Marcado para Modelos Predictivos, de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar. Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en archivos de texto, en Internet, etc.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Julio 19 de 2010

Minería de datos bayesiana

Minería de datos bayesiana

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad. Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido. Además, ya que los datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la inminente necesidad de analizar los mismos para la obtención de información útil para la organización.

En muchas situaciones, el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual. El especialista analiza los datos y elabora un informe o hipótesis que refleja las tendencias o pautas de los mismos. Este conocimiento, validado convenientemente, puede ser usado por los superiores para tomar decisiones importantes y significativas para la organización. Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuentemente, muchas decisiones importantes se realizan, no sobre la gran cantidad de datos disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herramientas necesarias.

La minería de datos es el proceso de extraer información no trivial y potencialmente útil a partir de grandes conjuntos de datos disponibles en las ciencias experimentales, proporcionando información en un formato legible que puede ser usada para resolver problemas de diagnostico, clasificación o predicción. Tradicionalmente, este tipo de problemas se resolvía de forma manual aplicando técnicas estadísticas clásicas, pero el incremento del volumen de los datos ha motivado el estudio de técnicas de análisis automático que utiliza herramientas más complejas. Por lo tanto, la minería de datos identifica tendencias en los datos que van más allá de un análisis simple. Técnicas modernas de minería de datos, entre las que se cuentan las reglas de asociación, árboles de decisión, modelos de mezcla gausianos, algoritmos de regresión, redes neuronales, máquinas de vectores soporte, redes bayesianas, etc., se utilizan en ámbitos muy diferentes para resolver problemas de asociación, clasificación, segmentación y predicción.

Entre los diferentes algoritmos de minería de datos, los modelos gráficos probabilísticos, en particular las redes bayesianas, constituyen un método elegante y potente basada en la probabilidad y la estadística que permite construir modelos de probabilidad conjunta manejables que representan las dependencias relevantes entre un conjunto formado por cientos de variables en aplicaciones prácticas. Los modelos resultantes permiten realizar inferencia probabilística de una manera eficiente. Por ejemplo, una red bayesiana podría representar la relaciones probabilísticas entre campos sinópticos de larga escala y registros de observaciones locales, proporcionando una nueva metodología de escalado probabilístico.

Formalmente, una red bayesiana es un grafo dirigido sin ciclos cuyos nodos representan variables y las aristas o arcos que los unen codifican dependencias condicionales entre las variables. El grafo proporciona una forma intuitiva para describir las dependencias del modelo y define una factorización sencilla de la distribución de probabilidad conjunta consiguiendo un modelo manejable que es compatible con las dependencias codificadas. Existen algoritmos eficientes para aprender modelos gráficos probabilísticos a partir de datos, permitiendo así la aplicación automática de esta metodología en problemas complejos. Las redes bayesianas que modelan secuencias de variables, por ejemplo series temporales de observaciones, se denominan “redes bayesianas dinámicas”. Una generalización de las redes bayesianas que permite representar y resolver problemas de decisión con incertidumbre son los “diagramas de influencia”.

Las redes bayesianas son una alternativa para minería de datos, la cual tiene varias ventajas, entre las cuales resaltan las siguientes: (1) Permiten aprender sobre relaciones de dependencia y causalidad. (2) Permiten combinar conocimiento con datos. (3) Evitan el sobre-ajuste de los datos. (4) Pueden manejar bases de datos incompletas.

Obtener una red bayesiana a partir de datos es un proceso de aprendizaje, el cual se divide, naturalmente, en dos aspectos: (1) Aprendizaje paramétrico, dada una estructura, obtener las probabilidades a priori y condicionales requeridas. (2) Aprendizaje estructural, obtener la estructura de la red bayesiana, es decir, las relaciones de dependencia e independencia entre las variables involucradas. Las técnicas de aprendizaje estructural dependen del tipo de estructura de red: árboles, poli-árboles y redes multi-conectadas. Otra alternativa es combinar conocimiento subjetivo del experto con aprendizaje. Para ello se parte de la estructura dada por el experto, la cual se valida y mejora utilizando datos estadísticos.

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad y es aquí donde aparece el concepto de minería de datos. Una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el análisis de datos tradicional supone que las hipótesis ya están construidas y validadas contra los datos, mientras que la minería de datos supone que los patrones e hipótesis son automáticamente extraídas de los datos. En general, las tareas de la minería de datos se pueden clasificar en dos categorías: minería de datos descriptiva y minería de datos predictiva. Algunas de las técnicas más comunes de minería de datos son los árboles de decisión, las reglas de producción y las redes neuronales.

Una red bayesiana es un grafo dirigido sin ciclos en el que cada nodo representa una variable y cada arco una dependencia probabilística, en la cual se especifica la probabilidad condicional de cada variable dados sus padres. La variable a la que apunta el arco es dependiente, causa-efecto, de la que está en el origen de éste. La topología o estructura de la red proporciona información sobre las dependencias probabilísticas entre las variables pero también sobre las independencias condicionales de una variable dada otra variable. Dichas independencias, simplifican la representación del conocimiento, con menos parámetros, y el razonamiento, en lo referente a la propagación de las probabilidades.

Para el tratamiento del razonamiento probabilístico, muchos investigadores prefieren el modelo de Bayes. Éste contiene un modelo probabilístico completo con las probabilidades para todos y cada uno de los eventos, con juicios subjetivos si no hay información completa para definir probabilidades y utiliza el teorema de Bayes como mecanismo para la actualización de la credibilidad. Esto quiere decir que se emplea un modelo heurístico para la inferencia donde el teorema de Bayes modela la probabilidad de que tal suceso se deba a cierta causa, o hipótesis, siendo las causas mutuamente excluyentes, o sea, no pueden ocurrir dos causas al mismo tiempo.

Las redes bayesianas son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico. Las mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento, basados en las teorías probabilísticas, capaces de predecir el valor de variables no observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten combinar conocimiento con datos, evitan el sobre-ajuste de los datos y pueden manejar bases de datos incompletas.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Abril 12 de 2010

Minería de datos con ontologías

Minería de datos con ontologías

La ingeniería del conocimiento surge como consecuencia de la necesidad de establecer principios metodológicos y científicos que permitan desarrollar sistemas de información basados en conocimiento a partir de los fundamentos de la informática en general y de la inteligencia artificial en particular. La adquisición del conocimiento a partir de expertos humanos, si bien es necesaria e insustituible en muchas aplicaciones, ha presentado diversas dificultades que van desde la representación del sentido común hasta las excesivas demoras en la implementación y el mantenimiento de los sistemas. Ante estas dificultades han surgido las técnicas de adquisición automática del conocimiento.

Para asegurar el crecimiento de los sistemas basados en el conocimiento se ha hecho necesario desarrollar técnicas que permitan evitar los errores de diseño del sistema y la adquisición del conocimiento, para lo cual se los debe verificar, es decir que se demuestra su consistencia y completitud, se los debe validar, o sea que se determina la corrección. El aprendizaje automático ha sido una respuesta a las dificultades para la adquisición humana del conocimiento y se basa en el aprendizaje de conceptos generales a partir de casos particulares. Algunas de las técnicas más conocidas son las de inducción de árboles de decisión, las redes neuronales y los algoritmos genéticos. Actualmente la aplicación de estas técnicas a grandes bases de datos ha dado lugar a los conceptos de minería de datos y de descubrimiento de conocimientos en grandes bases de datos.

De manera general se puede decir que la minería de datos consiste en la “explotación” de datos en bruto. Su objetivo, perseguido mediante la manipulación automática o semiautomática de los datos, es la obtención de información clave para conseguir beneficios, información más relevante y útil que los propios datos de partida. La minería de datos se fundamenta en la intersección de diversas áreas de estudio, entre las que cabe destacar: análisis estadístico, bases de datos, inteligencia artificial y visualización gráfica. Una buena definición de lo que es minería de datos puede ser la siguiente: “Es el empleo de algoritmos y procedimientos para sacar a la luz asociaciones, correlaciones, reglas, patrones e incluso excepciones interesantes o potencialmente útiles, desconocidos y escondidos en bases de datos o almacenes de datos. La importancia de la minería de datos crece de manera análoga al crecimiento en el tamaño de las bases de datos. En las bases de datos pequeñas son suficientes las técnicas estadísticas tradicionales y las aplicaciones relativamente sencillas.

A veces se ha apelado al nombre de “descubrimiento de conocimiento en bases de datos” para hacer referencia a la minería de datos; sin embargo, muchos autores prefieren referirse al proceso de minería de datos como al de la aplicación de un algoritmo para extraer patrones de datos y a descubrimiento de conocimiento como al proceso completo: pre-procesamiento, minería, post-procesamiento. En este sentido, el descubrimiento de conocimiento en bases de datos implica un proceso interactivo e iterativo, involucrando la aplicación de métodos de minería de datos, para extraer o identificar lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos, junto con el pre-procesamiento, muestreo y transformaciones de la base de datos. La meta de este proceso es justamente resolver de manera automática grandes cantidades de datos crudos, identificar los patrones más significativos y relevantes, y presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Las herramientas de la minería de datos desarrolladas en profundidad en los últimos años, son de mucha utilidad en las organizaciones, ya que permiten el análisis de grandes volúmenes de información, con el fin de obtener resúmenes y conocimiento que apoye la toma de decisiones y que pueda construir una experiencia a partir de los millones de transacciones detalladas que registra una corporación en sus sistemas informáticos; científicos del área han desarrollado técnicas de visualización de los modelos de comportamiento obtenidos en estos procesos, que relacionan información relevante con un mayor grado de análisis para ser utilizada con efectividad en la toma de decisiones.

No obstante, los procesos de minería de datos lo que permiten obtener son modelos de comportamiento y no necesariamente, conocimiento semánticamente estructurado de conocimiento, con lo cual son efectivas para gestionar información, que luego, a través de otros procesos puede convertirse en conocimiento. En la década de los años 1990, con el desarrollo de la Web y los deseos de compartir y rehusar el conocimiento, las investigaciones sobre sistemas de representación del conocimiento comenzaron a cobrar importancia en la medida en que el problema de la búsqueda y recuperación de información se agudizó, y el Consorcio Web inició el proyecto de la Web semántica. Entre estos sistemas se destacan las taxonomías de dominio, los mapas de tópicos, los mapas conceptuales, las ontologías, entre otros. Aunque la investigación que hoy día se lleva a cabo sobre estos sistemas es básicamente para su empleo en la búsqueda y recuperación de información en la Web, concretamente en el proyecto de la Web semántica. Estos sistemas tienen grandes posibilidades de uso en los sistemas de información organizacional como herramienta para la gestión del conocimiento, debido a que pueden representar el conocimiento que existe sobre un determinado dominio. De todos los sistemas antes expuestos, destaca la ontología como el sistema de representación propuesto por el Consorcio Web para la gestión semántica en la Web, y a su vez, parece que puede ser empleada para la gestión del conocimiento en las organizaciones.

El objetivo de las ontologías en la inteligencia artificial es representar procesos del tipo no algorítmico con el fin de dotar a los sistemas inteligentes de la suficiente flexibilidad que les permita reproducir, en alguna medida, los procesos cognitivos que se llevan a cabo en la mente humana. Con el desarrollo de la Web y los deseos de compartir y reusar el conocimiento, la investigación sobre las ontologías como posibles sistemas para representar el conocimiento almacenado en las páginas Web, comenzó a cobrar importancia en la medida en que el problema de la búsqueda y recuperación de información se agudizó, y el Consorcio Web comenzó a desarrollar el proyecto de la Web semántica. En el entorno de la hipertextualidad, la ontología ha sido definida como: Una representación explícita y formal de una conceptualización compartida.

En la definición de ontología se destacan los siguientes elementos: (1) La conceptualización corresponde a una parte del mundo o universo que es objeto de tratamiento. Es un modelo que se construye a partir de identificar los conceptos que componen un dominio del conocimiento, y las relaciones relevantes establecidas entre dichos conceptos, por lo que la base de toda ontología es una taxonomía o clasificación de conceptos. (2) Es compartida porque debe ser consensuada y aceptada por un grupo o comunidad científica. Si un grupo o comunidad debe establecer consenso sobre cómo ven el campo de conocimiento sobre el que trabajan, es bastante fácil, que aflore el conocimiento tácito que de manera individual posee cada miembro a un nivel micro y cada grupo a un nivel macro. (3) Explícita porque se define el conocimiento implícito que existe sobre determinada noción y esa definición es a través del lenguaje natural, lo que la dota de capacidades didácticas. (4) Formal, porque es legible por la computadora, es decir, debe ser desarrollada y puesta en marcha a través de lenguajes computacionales, lo que permite también su reutilización en otros procesos como la gestión de información, específicamente, como sistemas para la organización y de recuperación de información en intranets, bibliotecas digitales, sitios Web, etc.

De esta manera, se puede ver la relación entre ontologías y minería de datos de dos modos: (1) Desde las ontologías a la minería de datos, se incorpora el conocimiento al proceso por el uso de ontologías, es decir como los expertos entienden y realizan las tareas de análisis. Las aplicaciones representativas son ayudantes inteligentes para el proceso de descubrimiento, la interpretación y la validación del conocimiento extraído, las ontologías para recursos y la descripción de servicios. (2) Desde la minería de datos a las ontologías, se incluye el conocimiento del dominio en la información de entrada o se utiliza las ontologías para representar los resultados. Por lo tanto el análisis es realizado sobre estas ontologías. Las aplicaciones más representativas se encuentran en la medicina, biología y datos espaciales, como: la representación de genes, taxonomías, aplicaciones en geociencias y aplicaciones médicas.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Noviembre 9 de 2009
Minería de datos predictiva

Minería de datos predictiva

La minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información, previamente desconocida, puede resultar útil para algún proceso no previsto hasta ese entonces. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en grandes bases de datos. Los fundamentos de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

El proceso de minería de datos se compone de las siguientes fases: (1) Selección y preprocesado de datos. El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos “en bruto”. (2) Mediante el preprocesado se filtran los datos, de forma que se eliminan valores incorrectos, no válidos y desconocidos, según las necesidades y el algoritmo que va a usarse, se obtienen muestras de los mismos, en busca de una mayor velocidad de respuesta del proceso, o se reduce el número de valores posibles, mediante redondeo, agrupamiento u otras técnicas. (3) Selección de variables. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos, aquellos basados en la elección de los mejores atributos del problema y aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia o heurísticos. (3) Extracción de conocimiento. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. (4) Interpretación y evaluación. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

La minería de datos es un mecanismo de explotación consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está ligada a las bases de datos que proporcionan la información histórica de las instituciones mediante los algoritmos de minería de datos donde se obtiene la información necesaria para ayudar a la toma de decisiones. La minería de datos puede ser dividida en: (1) Minería de datos predictiva, la cual utiliza primordialmente técnicas estadísticas. (2) Minería de datos para descubrimiento de conocimiento, la que utiliza principalmente técnicas de inteligencia artificial. En los últimos años, se ha desarrollado un amplio abanico de técnicas estadísticas y computacionales para la minería de datos. Se pueden destacar las siguientes técnicas de la minería de datos predictiva: (1) Análisis factorial descriptivo. Cubre las técnicas de análisis de componentes principales, análisis de correspondencias, análisis factorial. Permite analizar la estructura de los datos y proporcionan herramientas de visualización. (2) Técnicas de clasificación. Cubren las técnicas de algoritmo de las k-medias, algoritmo de clasificación jerárquica. Agrupan individuos o variables en clases que muestran un comportamiento homogéneo y, por lo tanto, permiten descubrir patrones de comportamiento. (3) Técnicas de regresión. Comprende entre otras a los árboles de regresión y las redes neuronales. Están principalmente orientadas a la predicción de una variable de interés a partir de un conjunto de variables de regresión. (4) Reglas de asociación y de secuenciación Analizan los datos para descubrir reglas que identifiquen patrones o comportamientos y utilizan algoritmos computacionalmente intensivos. Son técnicas que se han utilizado en el análisis de la cesta de la compra. (5) Técnicas de escalamiento multidimensional. Analizan los datos a partir de una matriz de proximidades, dónde dicha proximidad se define como un índice de similitud entre dos ítems cualesquiera. Se utilizan en los campos de la psicometría y del marketing.

Para soportar el proceso de minería de datos, el usuario dispone de una extensa gama de técnicas para el análisis estadístico, que le pueden ayudar en cada una de las fases de dicho proceso. Algunas herramientas son: (1) ANOVA o Análisis de la Varianza. Contrasta si existen diferencias significativas entre las medidas de una o más variables continuas en grupo de población distintos. (2) Regresión. Define la relación entre una o más variables y un conjunto de variables de predicción de las primeras. (3) Ji cuadrado. Contrasta la hipótesis de independencia entre variables. (4) Componentes principales. Permite reducir el número de variables observadas a un menor número de variables artificiales, conservando la mayor parte de la información sobre la varianza de las variables. (5) Análisis de agrupación. Permite clasificar una población en un número determinado de grupos, con base en semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha población. (6) Análisis discriminante. Es un método de clasificación de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto identificar cuáles son las variables que mejor definen la pertenencia al grupo.

La minería de datos principalmente se utiliza para segmentar los datos, calificarlos y luego utilizar esa información para predecir el comportamiento de datos nuevos. A partir de los datos analizados con minería de datos se pueden construir modelos, llamados predictivos, que muestran el comportamiento o los patrones de los datos. Las estructuras de datos denominadas “árboles” permiten visualizar como se encuentran clasificados los datos en grandes almacenes y bases de datos. La minería de datos es un proceso analítico diseñado para explorar datos, usualmente grandes cantidades de datos, en búsqueda de patrones consistentes o relaciones sistemáticas entre variables, y luego para validar los hallazgos aplicados aplicando los patrones detectados a nuevos subconjuntos de datos. Uno de los objetivos principales de la minería de datos es la predicción, y la minería de datos predictiva es el tipo más común y uno de los que tiene bastante aplicación en procesos de toma de decisiones. En la práctica, los métodos de la minería de datos más utilizados caen dentro de la categoría de “tipo de conocimiento a extraer”. Las técnicas de minado de datos pertenecientes a esta categoría buscan hacer predicción o descripción de un fenómeno determinado. La predicción implica utilizar algunas variables o campos de una base de datos para predecir valores desconocidos o futuros de otras variables de interés, mientras que la descripción está enfocada a encontrar patrones humano-interpretables que describen los datos. Aunque las fronteras entre la predicción y la descripción no sean muy marcadas, parte de los modelos predictivos pueden ser descriptivos, al grado de que estos sean entendibles, y viceversa, la distinción es útil para entender la meta general de la extracción de conocimiento. La importancia relativa de la predicción y la descripción para aplicaciones particulares de minando datos puede variar considerablemente. Las metas de la predicción y la descripción se pueden lograr utilizando una variedad de métodos particulares de la minería de datos.

La clasificación y la predicción son dos formas de análisis de datos que pueden ser usadas para extraer modelos que describen importantes clases de datos o predicen valores futuros. En la clasificación de datos se desarrolla una descripción o modelo para cada una de las clases presentes en la base de datos. Existen muchos métodos de clasificación tales como los árboles de decisión, los métodos estadísticos, las redes neuronales, y los conjuntos difusos, entre otros. La predicción puede ser vista como la construcción y uso de modelos para evaluar las clases de una muestra sin clasificaciones, o para evaluar el valor, o rango de valores, que un atributo debería de tener para una muestra determinada. En el primer caso se dice que se está haciendo una clasificación de los datos, mientras que en el segundo, se dice que se está haciendo una predicción de valores, en otras palabras, la clasificación se refiere a predecir valores discretos o nominales, mientras que la predicción, propiamente dicha, se refiere al pronóstico de valores continuos.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Agosto 2 de 2009
Minería de datos inteligente

Minería de datos inteligente

Se puede decir que los datos por sí solos no producen beneficio directo, su verdadero valor radica en la posibilidad de extraer información útil para la toma de decisiones o la exploración y comprensión del fenómeno que produjo los datos. Tradicionalmente en la mayoría de los dominios este análisis de datos se hacía mediante un proceso manual o semiautomático: uno o más analistas con conocimiento de los datos y con la ayuda de técnicas estadísticas proporcionaban resúmenes y generaban informes, o validaban modelos sugeridos manualmente por los expertos. Sin embargo, este proceso, en especial la generación de modelos, es irrealizable conforme aumenta el tamaño de los datos y el número de dimensiones o parámetros se incrementa.

Ante este panorama, surge la necesidad de metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los datos. Este es el concepto de proceso correspondiente al descubrimiento de conocimiento en bases de datos, que puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El proceso de descubrimiento de conocimiento en bases de datos es un conjunto de pasos interactivos e iterativos, entre los que se incluye el pre-procesamiento de los datos para corregir los posibles datos erróneos, incompletos o inconsistentes, la reducción del número de registros o características encontrando los más representativos, la búsqueda de patrones de interés con una representación particular y la interpretación de estos patrones incluso de una forma visual.

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a presentar problemas de eficiencia y escalabilidad. Una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el análisis de datos tradicional supone que las hipótesis ya están construidas y validadas contra los datos, mientras que la minería de datos supone que los patrones e hipótesis son automáticamente extraídos de los datos. Un concepto primordial, y diferenciador de las técnicas estadísticas más clásicas, es el de aprendizaje automático, que fue concebido hace aproximadamente cuatro décadas con el objetivo de desarrollar métodos computacionales que implementarían varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimiento a partir de datos.

El aprendizaje automático es el campo de la informática en el que se estudian y desarrollan algoritmos que implementan los distintos modelos de aprendizaje y su aplicación a la resolución de problemas prácticos. Entre los problemas abordados en este campo, está el de inducir conocimientos a partir de datos o ejemplos. Esto resulta una alternativa de solución a problemas que no pueden ser resueltos mediante algoritmos tradicionales, entre los cuales se pueden mencionar: (1) La especificación de condiciones asociadas a diagnósticos técnicos o clínicos. (2) La identificación de características que permitan el reconocimiento visual de objetos., (3) El descubrimiento de patrones o regularidades en estructuras de información, en particular en bases de datos de gran tamaño.

Los algoritmos de aprendizaje automático pueden clasificarse en dos grandes categorías: métodos de caja negra o sin modelo, tales como redes neuronales o los métodos bayesianos, y métodos orientados al conocimiento, tales como los que generan árboles de decisión, reglas de asociación, o reglas de decisión. La propuesta de caja negra desarrolla su propia representación del conocimiento, que no es visible desde el exterior. Los métodos orientados al conocimiento, por el contrario, construyen una estructura simbólica del conocimiento que intenta ser útil desde el punto de vista de la funcionalidad, pero también descriptiva desde la perspectiva de la inteligibilidad. Existen también métodos para extraer reglas comprensibles a partir de estas cajas negras, con lo que en realidad ambas categorías pueden ser útiles para la extracción de conocimiento.

El área de aprendizaje automático es relativamente amplia y ha dado lugar a muchas técnicas diferentes de aprendizaje, entre las cuales se pueden citar las siguientes: (1) Aprendizaje inductivo. Se pretenden crear modelos de conceptos a partir de la generalización de conjuntos de ejemplos. Se busca descripciones simples que expliquen las características comunes de esos ejemplos. (2) Aprendizaje analítico o deductivo. Se aplica la deducción para obtener descripciones generales a partir de un ejemplo de concepto y su explicación. Esta generalización puede ser memorizada para ser utilizada en ocasiones en las que las personas logren encontrarse con una situación parecida a la del ejemplo. (3) Aprendizaje genético. Aplica algoritmos inspirados en la teoría de la evolución para encontrar descripciones generales a conjuntos de ejemplos. La exploración que realizan los algoritmos genéticos permite encontrar la descripción mas ajustada a un conjunto de ejemplos. (4) Aprendizaje conexionista. Busca descripciones generales mediante el uso de la capacidad de adaptación de redes de neuronas artificiales. Una red neuronal está compuesta de elementos simples interconectados que poseen estado. Tras un proceso de entrenamiento, el estado en el que quedan las neuronas de la red representa el concepto aprendido.

Lógicamente, las áreas del aprendizaje automático y la minería de datos se solapan en gran medida, en cuanto a los problemas que tratan y a los algoritmos que utilizan. No obstante, la minería de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes cantidades de información, mientras que el aprendizaje automático se orienta más a la tarea del aprendizaje propiamente, buscando en algunos casos estrategias o heurísticas, más que el propio conocimiento comprensible. Por esa razón, la minería de datos tiene un espectro de aplicación más amplio visto desde el exterior, en el sentido de que interactúa mejor con diferentes dominios, pues el aprendizaje realizado se transforma en conocimiento útil para el experto en el dominio concreto.

Por consiguiente, se denomina “minería de datos” al conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos; y describir de forma automatizada modelos previamente desconocidos. Cuando se habla de minería de datos inteligente se hace referencia específicamente a la aplicación de métodos de aprendizaje automático, para descubrir y enumerar patrones presentes en los datos. Como se ha mencionado, el aprendizaje automático es el campo dedicado al desarrollo de métodos computacionales para los procesos de aprendizaje y a la aplicación de los sistemas informáticos de aprendizaje en problemas prácticos. La minería de datos es la búsqueda de patrones e importantes regularidades en bases de datos de gran volumen. La minería de datos utiliza métodos y estrategias de otras áreas o ciencias, entre las cuales se puede nombrar al aprendizaje automático. Cuando este tipo de técnicas se utiliza para realizar la minería, se dice que se está ante una minería de datos inteligente.

Los métodos tradicionales de análisis de datos incluyen el trabajo con variables estadísticas, varianza, desviación estándar, covarianza y correlación entre los atributos; análisis de componentes, con la determinación de combinaciones lineales ortogonales que maximizan una varianza determinada; análisis de factores, con la determinación de grupos correlacionados de atributos; análisis de clusters, que consiste en la determinación de grupos de conceptos que están cercanos según una función de distancia dada; análisis de regresión, con la búsqueda de los coeficientes de una ecuación de los puntos dados como datos; análisis multivariable de la varianza, y análisis de los discriminantes. Todos estos métodos están orientados numéricamente, es decir son esencialmente cuantitativos. En contraposición, los métodos basados en aprendizaje automático, están orientados principalmente hacia el desarrollo de descripciones simbólicas de los datos, que puedan caracterizar uno o más grupos de conceptos, diferenciar entre distintas clases, crear nuevas clases, crear una nueva clasificación conceptual, seleccionar los atributos más representativos, y ser capaces de predecir secuencias lógicas, son tareas esencialmente consideradas como cualitativas.

 

Guillermo Choque Aspiazu
www.eldiario.net
mayo 4 de 2009
Translate »