Etiqueta: Bases de datos

Descubrimiento de conocimiento en bases de datos

Descubrimiento de conocimiento en bases de datos

En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo de la ciencia positiva. En él es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta “intuición” resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte informático. En el fondo de todas las investigaciones sobre inducción en bases de datos subyace la idea de automatizar ese paso inductivo.

Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtener cierta información útil, pero no inducir relaciones cualitativas generales, o leyes, previamente desconocidas; para esto se requieren técnicas de análisis inteligente que todavía no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles y el conocimiento extraído de los mismos. Pero cada vez más investigaciones dentro de la inteligencia artificial están enfocadas a la inducción de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de interés: la minería de datos, que incluye los nuevos métodos matemáticos y técnicas para el análisis inteligente de datos. La minería de datos surge a partir de sistemas de aprendizaje inductivo en computadoras, al ser aplicados a bases de datos, y su importancia crece de tal forma que incluso es posible que, en el futuro, los sistemas de aprendizaje se usen de forma masiva como herramientas para analizar datos a gran escala.

El descubrimiento implica observar, recoger datos, formar hipótesis para explicar las observaciones, diseñar experimentos, comprobar la corrección de las hipótesis, comparar los hallazgos con los de otros investigadores y repetir el ciclo. Las computadoras son capaces de observar y recoger datos, a veces mejor que los observadores humanos; los programas estadísticos pueden generar agrupaciones de forma automática entre los datos recogidos, aunque no siempre se corresponden con las clasificaciones hechas por los hombres; también hay programas con cierta capacidad para diseñar experimentos; y algunos sistemas robóticos realizan las manipulaciones necesarias en ciertos experimentos. Pero ninguna computadora reúne todas estas habilidades ni es capaz de adaptarse para aplicarlas a nuevos problemas; en este sentido, las computadoras no serían capaces de descubrir. Sin embargo, el descubrimiento no requiere realizar simultáneamente todas estas tareas. De igual modo que un investigador puede descubrir nuevo conocimiento a través del análisis de sus datos, una computadora puede examinar los datos disponibles o recogidos por otras computadoras y encontrar relaciones y explicaciones previamente desconocidas, realizando así descubrimiento en un sentido más restringido. La capacidad de las computadoras para realizar búsquedas exhaustivas de forma incansable entre grandes cantidades de datos ofrece buenas expectativas para obtener descubrimiento de forma automática.

El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con hipótesis concretas en lenguajes de consulta estructurados han sido insuficientes para explotar estos almacenes. El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el manejo de la información en sistemas de cómputo. La minería de datos es una disciplina que combina técnicas de la inteligencia artificial, el aprendizaje automático, la probabilidad, la estadística y las bases de datos para extraer información y conocimientos útiles desde grandes cantidades de datos. El término minería de datos no es nuevo, desde los años 1970 los estadísticos manejaban para explicar el significado de minería de datos, expresiones como: extracción de conocimientos, descubrimiento de información, cosecha de información, arqueología de los datos, procesamiento de patrones de los datos, inclusive minería de datos. La minería de datos es usada principalmente por los estadísticos. Aunque conceptualmente hay una diferencia entre minería de datos y descubrimiento de conocimiento en bases de datos, regularmente su uso es indistinto.

Se denomina descubrimiento de conocimiento en bases de datos al proceso global de búsqueda de nuevo conocimiento a partir de los datos de una base de datos. Este proceso incluye no sólo el análisis inteligente de los datos con técnicas de minería de datos, sino también los pasos previos, como el filtrado y preprocesado de los datos, y los posteriores, como la interpretación y validación del conocimiento extraído. Normalmente el término minería de datos lo usan estadísticos, analistas de datos, y la comunidad de sistemas de gestión de información, mientras que el descubrimiento de conocimiento en bases de datos es más utilizado en inteligencia artificial y aprendizaje automático.

El descubrimiento de conocimiento en bases de datos, es un área de investigación de naturaleza multidisciplinaria comprende áreas como: bases de datos, inteligencia artificial (aprendizaje automático, reconocimiento de patrones, sistemas de expertos), y estadística. El descubrimiento de conocimiento en bases de datos es un proceso no-trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran en los datos. Algunos términos que forman parte de la definición son los siguientes: (1) Proceso. Implica varios pasos los cuales incluyen pre-procesamiento de los datos, búsqueda de patrones, evaluación y mejoramiento del conocimiento. (2) No trivial. Significa que alguna búsqueda o inferencia está involucrada. (3) Patrón. Es un subconjunto de datos que comparten propiedades similares. (4) Datos. Es un conjunto de registros que aparecen en una base de datos. (5) Validez. Extraer patrones puede ser validado con base en alguna prueba de datos con algún grado de certeza. (6) Potencialmente útiles. Que sean de beneficio para el usuario. (7) Entendibles. El objetivo de descubrir conocimientos es identificar patrones y hacer esto entendible para los seres humanos.

El proceso de descubrimiento de conocimiento en bases de datos es un proceso iterativo e interactivo. Es iterativo porque el resultado de cada paso podría ser usado para previos pasos. Es interactivo porque el usuario o experto en el campo de aplicación debe estar involucrado para ayudar en la preparación de los datos, descubrimiento y evaluación de conocimiento. El descubrimiento de conocimiento en bases de datos en los últimos años ha ganado preponderancia, se viene desarrollando y utilizando ampliamente ya como una disciplina con un cuerpo teórico bastante estructurado. Uno de sus componentes más importantes es la minería de datos que integra técnicas de análisis de datos y extracción de modelos. La minería de datos se basa en varias disciplinas, algunas de ellas tan antiguas como la estadística. Por ello, lo novedoso no son tanto sus técnicas sino su fin, el cual es el de extraer conocimiento.

Los pasos en el proceso de descubrimiento de conocimiento en bases de datos son: (1) Desarrollar un entendimiento del dominio de la aplicación y el conocimiento apriori relevante, así como la identificación del objetivo del proceso de descubrimiento desde el punto de vista de cliente o usuario. (2) Integrar datos de diferentes tipos de información que pueden ser usados en el proceso de descubrir conocimiento. Así es que, fuentes de datos múltiples pueden ser combinados definiendo el conjunto para el cual es aplicado el proceso de “minería”. (3) Crear un conjunto de datos objetivo, seleccionando un conjunto de datos o un subconjunto de variables sobre los cuales el proceso de descubrir será interpretado. (4) Limpiar datos y efectuar un pre-proceso, este paso incluye las operaciones básicas tales como eliminar datos extremos, colectar la información necesaria para modelar o explicar el ruido y las decisiones sobre las estrategias para datos faltantes. (5) Transformar los datos o consolidarlos en forma apropiada para “explotar o minar” usando reducción de la dimensionalidad o métodos de transformación para reducir el número de variables efectivas bajo consideración o encontrar información invariante para los datos. (6) Seleccionar la tarea de minería de datos y algoritmos, se decide el objetivo del proceso de descubrimiento de conocimiento seleccionando la tarea de minería de datos para llevar a cabo dicho objetivo, esto incluye decidir qué modelo y parámetros son apropiados, además de adecuar los método de minería de datos con los requerimientos y todos los criterios del proceso de descubrimiento de conocimiento. (7) Aplicar los métodos de minería de datos para encontrar patrones interesantes de conocimiento. Los patrones pueden ser para una representación específica o un conjunto de tales representaciones tales como: reglas de clasificación, árboles de decisión, regresión, agrupamiento etc. La ejecución y los resultados de minería de datos dependen de los pasos precedentes. (8) La extracción de patrones son evaluados sobre algunas mediciones interesantes para identificar patrones representando conocimientos. (9) La extracción de conocimientos es incorporado en un sistema o simplemente la visualización y técnicas de representación de conocimientos son usadas para representar el conocimiento minado para su uso. Es menester señalar que también se observa y se resuelve conflictos con conocimientos previos.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Octubre 11 de 2010
Base de datos difusa

Base de datos difusa

La información es uno de los factores que más peso específico tiene en el desarrollo de un país, por este motivo, cualquier sociedad que pretenda crecer debe estar al tanto de las técnicas que van surgiendo en el almacenamiento, transmisión y análisis de la información. Históricamente las bases de datos han sido las herramientas diseñadas para llevar a cabo las tareas de almacenamiento y para proporcionar algunos de los mecanismos necesarios para el análisis de la información. El objetivo de una base de datos es el de almacenar la información de manera adecuada, permitir su modificación de manera segura y facilitar el proceso de recuperación de aquella información que en un momento dado resulte necesaria, todo ello en un formato adecuado a las necesidades de los usuarios. La evolución de las bases de datos comenzó con el uso, de forma elemental, de archivos secuenciales. Con el tiempo se fueron creando aplicaciones para estos archivos y fueron surgiendo diversos problemas, como son la eficiencia en la recuperación de información, la redundancia, la seguridad, etc. De esta manera nacieron los primeros “sistemas gestores de bases de datos”, como programas encargados de gestionar el almacenamiento y recuperación de la información, teniendo en cuenta los aspectos y problemas que esto plantea.

Una de las características del lenguaje natural, que hace difícil su utilización en sistemas computacionales es su imprecisión. Por ejemplo conceptos como pequeño o grande, tienen significados diferentes de acuerdo al contexto en el que se estén utilizando, e incluso dentro del mismo contexto, pueden significar cosas diferentes para diferentes individuos. La teoría de los conjuntos difusos desarrollada por el investigador Lofti A. Zadeh, provee una poderosa herramienta para la representación y manejo de la imprecisión por lo que actualmente está siendo utilizada en varios campos para el diseño de sistemas basados en reglas difusas. La teoría de conjuntos difusos, extiende la teoría clásica de conjuntos al permitir que el grado de pertenencia de un objeto a un conjunto sea representada como un número real entre cero y uno en vez del concepto clásico en el que solo se tiene la posibilidad de pertenecer a un conjunto o no pertenecer al mismo; en otras palabras, el grado de pertenencia a un conjunto en la teoría clásica tiene solo dos valores posibles: cero y uno.

Los modelos tradicionales de base de datos que aparecen en la literatura, sólo son capaces de manejar y representar datos ideales, y suponen que la información en ellas almacenada es exacta, correcta y está bien definida. Sin embargo, en el mundo real existe una gran cantidad y variedad de datos cuya naturaleza no permite que sean formulados de forma precisa. Esto significa que la información que se posee sobre un atributo, existe o no existe, pero no se permite ningún grado de incertidumbre o de imprecisión respecto de la misma, es decir, no se puede representar ni tratar informaciones del tipo “Eddy es más o menos flaco”. Tampoco se contempla la obtención de información en términos imprecisos a partir de la que se encuentra en la base de datos almacenada en forma precisa; así, por ejemplo, no se ofrecen mecanismos para obtener, de un atributo que almacene información sobre las características físicas de una población, aquellos individuos que sean “flacos”.

En el sentido más amplio, un sistema basado en reglas difusas es un sistema basado en reglas donde la lógica difusa es utilizada como una herramienta para representar diferentes formas de conocimiento acerca del problema a resolver, así como para modelar las interacciones y relaciones que existen entre sus variables. Debido a estas propiedades, los sistemas basados en reglas difusas han sido aplicados de forma exitosa en varios dominios en los que la información vaga o imprecisa emerge en diferentes formas. Actualmente, el modelo relacional no permite el procesamiento de consultas del tipo “Encontrar a todos los gerentes cuyo sueldo no sea muy alto” dado que ni el cálculo ni el álgebra relacional, que establecen el resultado de cualquier consulta como una nueva relación, tienen la capacidad de permitir consultas de una manera difusa.

En Francia, a principios de los años 1980, surge uno de los primeros estudios matemáticos sobre el tratamiento de la información difusa, es decir, la información que encierra alguna imprecisión o incertidumbre en una base de datos relacional. Estos fueron realizados, simultáneamente, por los investigadores Dubois y Prade, en dos tesis doctorales, a partir de los trabajos sobre la incertidumbre de Lofti Zadeh, específicamente, la teoría de la posibilidad, que tiene sus raíces en otras dos investigaciones de Zadeh: la teoría de conjuntos difusos y la lógica difusa. Sin embargo, no es hasta el año 1984, que la tesis doctoral de Testemale, propone un modelo de datos difusos, para la implementación de una base de datos relacional difusa. En los últimos años, algunos investigadores han lidiado con el problema de extender el modelo relacional para permitirle admitir algunas imprecisiones; esto conduce a sistemas de bases de datos que encajan en el campo de la inteligencia artificial, ya que permiten el manejo de información con una terminología que es muy similar a la del lenguaje natural. Una solución que aparece recurrentemente en los trabajos de investigación actuales en esta área es la fusión de los sistemas gestores de bases de datos relacionales con la lógica difusa, lo que da lugar a lo que se conoce como sistemas gestores de bases de datos difusas. El término “bases de datos difusas” designa al área de investigación que trata sobre la aplicación de los conjuntos difusos y la lógica difusa en bases de datos. Esta área busca compensar la deficiencia de los sistemas de bases de datos clásicos en representar y manipular data imperfecta y consultas flexibles o graduales. A este problema se le conoce como el problema de rigidez de las bases de datos convencionales, así que los sistemas de bases de datos que tratan de resolver este problema se califican como “flexibles”.

El problema de la implementación de los sistemas gestores de bases de datos difusas ha sido tratado en dos vertientes principales: (1) Iniciar con un sistema gestor de bases de datos relacionales con información precisa y desarrollar una sintaxis que permita formular consultas imprecisas, lo cual da origen a extensiones de consultas estructuradas, como consultas estructuradas difusas, con capacidades de manejar la imprecisión. (2) Construir un gestor de bases de datos relacionales difusas, prototipo que implemente un modelo concreto de base de datos relacional difusa en el que la información imprecisa pueda ser almacenada. Dentro de esta vertiente existen dos grandes ramas: Los modelos a través de unificación por relaciones de similitud y los modelos relacionales basados en distribuciones de probabilidades.

Los elementos relacionados con el manejo de información difusa pueden tener representaciones diferentes. Por ejemplo, una distribución normalizada de probabilidades puede ser representada por diferentes tipos de funciones: trapezoidal, triangular, intervalar, etc. Lo más usual, es que se usen funciones de tipo trapezoidal. Lo mismo puede decirse de la forma en la que se modelan los operadores relacionales difusos así como los demás elementos difusos que aparezcan en el sistema. El criterio empleado para seleccionar la forma de representación de los múltiples elementos difusos del sistema gestor de base de datos, puede afectar de manera determinante la funcionalidad y desempeño de la base de datos, por lo que debería ser uno de los puntos centrales en los que el experto ajuste la arquitectura del sistema gestor de base de datos difusa al problema específico a tratar mediante el mismo. Puede decirse entonces que este criterio de selección y ajuste constituye un paso entre la formulación de una base de datos relacional difusa y la implementación de un sistema basado en la misma.

La información que se puede manejar en una base de datos difusa puede dividirse en dos tipos principales: (1) Datos precisos. Manejados usualmente mediante la representación provista por la base de datos relacional huésped. (2) Datos imprecisos. Los modelos usualmente consideran dos tipos de representación para los datos imprecisos además de la información desconocida o indeterminada que se maneja mediante los tipos desconocido, indefinido y nulo. El primer tipo de datos imprecisos se define sobre dominios ordenados, que contiene distribuciones de probabilidad definidas en dominios continuos o discretos, pero ordenados. Los datos con analogías sobre dominios discretos se construyen sobre dominios discretos en los que existen definidas relaciones de proximidad entre sus valores. En este caso se debe almacenar la representación de los datos además de la representación de las relaciones de proximidad definidas para los valores en el dominio. El tipo de dato indefinido surge cuando un atributo toma el valor no definido, esto refleja el hecho de que ningún valor de su dominio es permitido. Por ejemplo: el número de teléfono de alguien que no tiene teléfono. El tipo de dato desconocido expresa la ignorancia sobre el valor que el atributo toma, sin embargo expresa también que puede tomar uno de los valores del dominio. Por ejemplo la fecha de nacimiento de alguien, se la desconoce pero tiene que tener alguna. El tipo de dato nulo expresa ignorancia total, en definitiva no se sabe nada sobre dicho dato.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Marzo 1 de 2010
Bibliominería de Datos

Bibliominería de Datos

La minería de datos aunque en teoría puede ser aplicada a cualquier tipo de información comúnmente es aplicada a grandes volúmenes de datos de las organizaciones. Las técnicas que aporta esta disciplina se emplean para mejorar el rendimiento de procesos industriales o de negocio en los que se manejan grandes volúmenes de información estructurada y almacenada en bases de datos. La búsqueda de patrones en conjuntos de datos tiene una larga tradición en el ámbito académico; en principio en el área estadística y más recientemente en inteligencia artificial, de allí surgen métodos y procesos como el descubrimiento del conocimiento en bases de datos. Pero la reciente necesidad de la industria por explotar el potencial de sus enormes acumulaciones de datos en medios informáticos ha impulsado a vendedores de tecnologías y organizaciones de consultoría a crear metodologías o procesos para el uso de las herramientas computacionales disponibles que implantan los algoritmos propios de la minería de datos. El uso industrial y científico de la minería de datos, la aplicación en nuevas áreas como es el caso de las bibliotecas y el constante crecimiento del volumen y la tipología de datos, requieren mucho más que la aplicación de sofisticadas técnicas como redes neuronales o árboles de decisión sobre tablas de datos.

Ingresando en el contexto de la temática, las bibliotecas tienen una larga tradición en el uso y análisis de los patrones de conducta especialmente de la colección, con el cual se determina principalmente la utilización que se hace del material o la información por parte de los usuarios. A pesar de este uso, desafortunadamente pocas bibliotecas se han sabido aprovechar estos datos como una manera de mejorar el servicio de cara al cliente, de manejar presupuestos para la adquisición, o que estos datos sirvan para apoyar la toma de decisiones estratégicas sobre la orientación del consumo de información en sus organizaciones.

La aplicación de minería de datos en bibliotecas se denomina bibliominería. El término fue acuñado por Nicholson y Stanton el año 2003 como una derivación de los términos bibliometría y minería de datos, con el fin de favorecer la conceptualización y el trabajo de los investigadores del campo. Estos autores definen bibliominería como “la combinación de minería de datos, bibliometría, estadística y herramientas de elaboración de informes y extracción de patrones de comportamiento, basados en sistemas bibliotecarios”. El uso de este nuevo término está justificado porque el término biblioteca asociado a la minería de datos se refiere principalmente al conjunto de algoritmos que utiliza el software, por lo que puede dar lugar a errores y dificultades en la descripción y búsqueda de información sobre el tema. Si bien, aunque la conceptualización es reciente, la bibliominería es una actividad que se viene realizando desde finales de la década de 1990. Un ejemplo son los casos de las bibliotecas de la Universidad de Waterloo en Ontario, Canadá y la Universidad de Pennsylvania ubicada en Filadelfia, Estados Unidos. Otro caso reciente es el relacionado con la biblioteca de la Universität Karlsruhe ubicado en Karlsruhe, Alemania.

Como se ha señalado, la bibliominería suele relacionarse con la bibliometría, pues ambas tareas se ocupan del análisis y cruce de datos mediante técnicas estadísticas para descubrir y establecer patrones y tendencias en los datos como ayuda a la toma de decisiones, porque obtener el dato por el dato, la mera presentación de resultados es una tarea vacua e inútil. Si bien en bibliominería se trata de datos sobre la actuación previa a la utilización de la información, mientras que la bibliometría trabaja con los datos relativos a la información que ha sido finalmente utilizada. El proceso de bibliominería está compuesto por seis fases, las que a grandes rasgos coinciden con las propuestas sobre minería de datos, estas fases son las siguientes: (1) Determinar las áreas de interés. (2) Identificar las fuentes de datos internas y externas. (3) Recopilar, limpiar y hacer anónimos los datos en el almacén de datos. (4) Seleccionar las herramientas de análisis apropiadas. (5) Descubrir patrones a través de la minería de datos y generar informes con herramientas tradicionales de análisis. (6) Analizar e implementar los resultados. Por fuentes de datos internas se entienden los datos generados por la propia biblioteca en el transcurso de su actividad, lo que se denominan datos observacionales, es decir, datos que han sido recopilados en la actividad diaria. Por fuentes de datos externas se entienden aquellos tomados de fuentes ajenas a la organización y que sirven para contextualizar los primeros, se trata esencialmente de datos demográficos.

En las bibliotecas tradicionales, los datos internos proceden principalmente de dos fuentes: las consultas a los Catálogos de Acceso Publico Abiertos y los datos de circulación de materiales y préstamo, incluido el préstamo interbibliotecario. Estos datos muestran información de los materiales que son los más usados, el tiempo que son requeridos, los materiales relacionados o similares y las bibliotecas con las que se tiene mayor relación a través del préstamo interbibliotecario.

Sin embargo estos datos no recogen en su totalidad la actuación que el usuario realiza en la biblioteca, especialmente en el caso de las bibliotecas de acceso abierto a la colección, quedándose fuera la consulta de fondos que no se prestan en la estantería, normalmente obras de referencia y publicaciones periódicas en papel y que a su vez suelen ser los más caros. Por consiguiente, los resultados de bibliominería han de ser considerados como representativos de una gran parte del uso de la biblioteca, pero no de su totalidad, por lo que estos datos deben apoyarse en otros datos e información conexa. En el caso de bibliotecas digitales y fondos en línea, el abanico de datos puede llegar a ser mucho mayor, ya que es posible crear y utilizar archivos de registro de actividades que marquen todo el recorrido y acciones que realizan los usuarios de la colección de la biblioteca. La identificación del usuario puede hacerse de dos formas, dependiendo de la política de la biblioteca. Si se trata de un acceso restringido, el usuario se ve obligado a identificarse, y en el caso de bibliotecas digitales de acceso abierto, pueden estudiarse las sesiones que realiza cada usuario mediante la identificación de la dirección del protocolo de acceso a Internet.

De modo general, la utilización de los datos almacenados por la biblioteca puede realizarse de tres maneras: en primer lugar mediante la elaboración de informes periódicos de variables determinadas, lo que se denomina procesamiento analítico en línea o minería de datos dirigida; en segundo lugar, mediante preguntas concretas a la base de datos; y en tercer lugar, mediante exploración aleatoria de variables, lo que se denomina minería de datos no dirigida. Con ello se pueden realizar tres tareas básicas: (1) Asociaciones. Ver qué elementos están relacionados ya sea por derivación, causa-efecto o por similitud. (2) Agrupaciones. Crear grupos de datos con características similares. (3) Resumen. Presentar de modo abreviado los datos sobre la actividad diaria para una mejor comprensión de los mismos. Una cuestión de suma importancia en el estudio, interpretación y utilización de los resultados de bibliominería, es que, al igual que con los datos obtenidos mediante estudios bibliométricos, éstos no deben ser tomados como algo definitivo y autoexplicativo, sino que deben ser tomados en cuenta en su contexto y ser comparados, contrastados y estudiados en función de otras variables y otros datos.

En cuanto a aplicaciones concretas en bibliotecas, las posibilidades son múltiples y han sido tratadas por diferentes autores. Un caso es el que presenta el investigador Papatheodorou, quien en el año 2003, centrándose en bibliotecas digitales, indica que la bibliominería puede ayudar a las bibliotecas de las siguientes maneras: (1) Optimización de servicios. Ayuda a los administradores a reorganizar el contenido de la biblioteca, autoridades e interfaces. (2) Apoyo a la toma de decisiones. (3) Personalización. Ayuda a los usuarios a identificar información de interés para ellos por recomendación de materias similares. Lo que supondría una mejora de los tan útiles sistemas de difusión selectiva de la información. Con relación a otro grupo de aplicaciones, los investigadores Nicholson y Stanton, en el año 2003, señalan las siguientes: (1) Predicción de necesidades de los usuarios. Que consiste en ver la evolución de las temáticas consultadas, lo cual puede ayudar a predecir cuáles serán consultadas posteriormente. (2) Identificación de materiales no consultados. Debido a un inadecuado proceso de selección o por una catalogación o clasificación incorrecta. (3) Justificación del mantenimiento o supresión de acuerdos de préstamo interbibliotecario. Referido al gasto del préstamo frente al gasto de adquisición.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Abril 7 de 2008

Mineria de Datos Espacial

Mineria de Datos Espacial

El almacenamiento de datos se ha convertido en una tarea rutinaria de los sistemas de información de las organizaciones. Esto es aún más evidente en las empresas de la nueva economía, el comercio electrónico, la telefonía, el marketing directo, etc. Los datos almacenados son un tesoro para las organizaciones, es donde se guardan las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, y lo fundamental es que representan la memoria de la organización. Pero con tener memoria no es suficiente, es necesario pasar a la acción inteligente sobre los datos para extraer la información que almacenan. En este contexto, aparece la minería de datos como el conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos, además de la descripción de manera automatizada de modelos previamente desconocidos.

Un almacén de datos espacial es una colección de datos orientados al tema, integrados, no volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que una dimensión o variable en la tecnología de la información, de tal manera que permita modelar todo el negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en línea, no solamente se posea un alto desempeño en consultas multidimensionales si no que adicionalmente se puedan visualizar espacialmente los resultados. El almacén de datos espacial forma el corazón de un extensivo sistema de información geográfica para la toma de decisiones, éste al igual que los sistemas de información geográfica, permiten que un gran número de usuarios accedan a información integrada, a diferencia de un simple almacén de datos que es orientado al tema, el almacén de datos espacial adicionalmente es geo-relacional, es decir que en combina e integra los datos espaciales con los datos descriptivos.

Actualmente un almacén de datos es de tipo geo-objeto, esto significa que los elementos geográficos se manifiestan como objetos con todas sus propiedades, y que adicionalmente están almacenados en una única base de datos objeto-relacional. Los almacenes de datos espaciales son aplicaciones basadas en un alto desempeño de las bases de datos, que utilizan arquitecturas cliente-servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian la ubicación espacial, a pesar de poseerla intrínsecamente. Sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los almacenes de datos espaciales, la variable geográfica desempeña un papel importante para la construcción del análisis, y de igual manera que para un almacén de datos, la variable geográfica debe ser almacenada directamente en ella.

La minería de datos espacial es utilizada para extraer conocimiento interesante y regular. Sus métodos pueden ser usados para entender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus características generales de manera simple y concisa. La minería de datos espacial es el descubrimiento de conocimiento implícito y previamente desconocido en base de datos espaciales. La minería de datos espacial se refiere a la extracción del conocimiento, de las relaciones espaciales, o de otros patrones interesantes almacenados no explícitamente en bases de datos espaciales. La minería de datos espacial exige una integración de los datos que se minan con tecnologías espaciales. Puede ser utilizada para entender datos espaciales, descubriendo relaciones espaciales y relaciones entre los datos espaciales y no espaciales, construyendo bases de conocimiento espaciales, reorganizando preguntas y optimizando las bases de datos espaciales. El conocimiento a ser descubierto en los datos espaciales puede ser de varios tipos, como características representativas, estructuras o agrupamientos, asociaciones espaciales, solamente por mencionar algunos.

Un sistema de minería de datos espacial está configurado por la siguiente arquitectura: (1) Base de datos: Puede ser de tipo base de datos normal, almacén de datos, hoja de cálculo u otra clase de repositorio. A estos datos se le aplican técnicas de limpieza e integración. (2) Servidor de bases de datos. Utilizado para obtener la información relevante según el proceso de minería de datos. (3) Base de conocimiento. Conocimiento del dominio para guiar la búsqueda y evaluar los patrones. Se tienen en cuenta las creencias de los datos. Los umbrales de evaluación y el conocimiento previo. (3) Algoritmo de minería de datos. Generalmente es modular para realizar distintos tipos de análisis tales como: Caracterización, Asociación, Clasificación, Análisis de grupos, Evolución y Análisis de desviaciones. (4) Módulo de evaluación. Mide que tan interesante es un patrón. Interactúa con el algoritmo de minería de datos para guiar la búsqueda hacia patrones interesantes. (5) Interfaz gráfica. Interacciona con el usuario. Elige la tarea de minería de datos. Provee información para enfocar la búsqueda. Ayuda a evaluar los patrones. Explora los patrones encontrados y la base de datos original. Visualiza los patrones en distintas formas.

Los métodos de minería de datos espacial son aplicados para extraer conocimiento interesante y regular. Estos métodos pueden ser usados para comprender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus características generales de manera simple y concisa. Existen cinco grupos de métodos de minería de datos espacial: (1) Métodos basados en generalización. Los cuales requieren la implementación de jerarquías de conceptos, estas jerarquías pueden ser temáticas o espaciales. Una jerarquía temática puede ser ejemplificada al generalizar naranja y piña a frutas. Una jerarquía espacial puede ser ejemplificada generalizando varios puntos en un mapa como una región y un grupo de regiones como un país. (2) Métodos de reconocimiento de patrones. Estos pueden ser usados para realizar reconocimientos y categorizaciones automáticas de fotografías, imágenes y textos, entre otros. (3) Métodos que usan agrupamiento. Consisten en crear agrupaciones o asociaciones de datos, cuando en estos existan nociones de similitud. (4) Agrupamiento. Es el proceso de agrupar datos en grupos de tal forma que los objetos de un grupo tengan una similitud alta entre ellos, y baja con objetos de otros grupos. (4) Métodos de exploración de asociaciones espaciales. Permiten descubrir reglas de asociaciones espaciales, es decir, reglas que asocien uno o más objetos espaciales con otro u otros objetos espaciales. Su aplicación está en bases de datos grandes, donde puede existir una gran cantidad de asociaciones entre los objetos, pero la mayoría de ellos son aplicables solamente a un pequeño número de objetos, teniendo en cuenta que la confianza de la regla puede ser baja. (5) Métodos que utilizan aproximación y agregación. Descubren conocimiento con base en las características representativas del conjunto de datos. La proximidad agregada es la medida de proximidad del sistema de puntos en el grupo con base en una característica en comparación con el límite del grupo y el límite de una característica. Las consultas de proximidad solicitan objetos que se hallen cerca de una posición específica

En la parte operativa, los algoritmos de minería de datos espacial deben cumplir con las siguientes características básicas: (1) Poder operar en conjuntos de datos de tamaño considerable. Las bases de datos espaciales tienen la potencialidad de almacenar grandes cantidades de información. Por ende, pensar en algoritmos que asumen que el conjunto completo de datos a ser analizados puedan residir en memoria principal. (2) Deben realizar su tarea de manera rápida. (3) Deben tener en cuenta el razonamiento espacial y las técnicas existentes de optimización de búsquedas espaciales. Las características y técnicas disponibles en las bases de datos espaciales y la geometría computacional deben utilizarse cuando sea conveniente para mejorar el rendimiento del proceso de minería.

Se espera que la minería de datos espacial tenga usos amplios en sistemas de información geográfica, geo-marketing, detección remota, exploración de imágenes en bases de datos, proyección de imágenes médicas, navegación, control de tráfico, estudios ambientales, y muchas otras áreas donde se utilizan los datos espaciales.

Guillermo Choque Aspiazu
Enero 7 de 2008
Translate »