Etiqueta: MINERIA DE DATOS DISTRIBUIDA

Enfoques de minería de datos distribuida (seunda parte)

Enfoques de minería de datos distribuida (seunda parte)

En la tesis de grado de Mamani, publicada el año 2015 con el título “Aplicación de la minería de datos distribuida usando algoritmos de agrupamiento de k-medias para mejorar la calidad de servicios de las organizaciones modernas” se describen los siguientes algoritmos asociados al enfoque de minería de datos distribuida: (1) Algoritmo k-medias; (2) Modelo base; (3) Densidad en malla; (4) Jerárquicos; (5) Agrupamiento P2P; (6) Algoritmo k-medias P2P. Estos algoritmos se describen a continuación.

Para el algoritmo “k-medias” se consideran los siguientes pasos: (1) Se eligen de manera aleatoria k centroides. (2) Los centroides son enviados a todos los nodos participantes; luego se realiza el agrupamiento k-medias en cada nodo. (3) Cada nodo extrae información estadística de los elementos de sus grupos. (4) Las estadísticas son transferidas hacia un controlador central quien se encargara de consolidar los modelos provenientes de los nodos locales. El hecho de transferir solo información estadística hacia un nodo central y no el conjunto de datos completo permite mantener la confidencialidad y seguridad de la información. Una de las desventajas de este modelo se basa en el hecho de tener que enviar en forma continua la información estadística de los nodos locales hasta lograr convergencia en los resultados lo cual puede generar bastante tráfico en la red y ralentizar el proceso. El algoritmo de “modelo base” utiliza agrupamiento de maximización de expectativas a nivel local, que es similar al algoritmo “k-medias”, excepto que la decisión sobre el agrupamiento final se basa en el uso de funciones adicionales como la función gaussiana. Inicialmente, el sistema local procesa sus elementos individuales, mediante el algoritmo de agrupamiento de maximización de expectativas local, a continuación cada grupo es modelado como una suma de funciones gaussianas. Las funciones resultantes son transferidas a un coordinador central, quien se encarga de reunir las funciones para generar la función global sobre la densidad de la probabilidad de la imagen global. Esta información se envía a cada nodo local con la finalidad que cada uno de ellos pueda utilizarla y reevaluar sus resultados de ser necesario. El algoritmo emplea buenas medidas de confidencialidad y precisión. Sin embargo tiene un problema básico que consiste en que dos grandes grupos conectados mediante un componente con densidad mínima puede resultar constituyéndose en un mismo grupo sin que lo sea.

El algoritmo “densidad en malla” hace uso del algoritmo “clique” con ciertas mejoras enfocadas en el agrupamiento distribuido. El enfoque basado en densidad para el agrupamiento distribuido consiste en que de manera inicial cada atributo definido en la consulta del usuario es explorado y en lugar de definir ciertos valores globales para el tamaño de una malla estos son determinados dinámicamente basándose en información estadística. Los grupos son representados como mallas rellenadas y debido al proceso dinámico de cuadricular el área se tiene que en zonas de intensa densidad la granularidad es bastante fina y en zonas de baja población la densidad es gruesa. El algoritmo genera grupos sólidos, sin embargo estos asumen que los datos están centralizados en un repositorio desde el cual se distribuye a todos los nodos. El algoritmo “jerárquico” es bastante similar al enfoque basado en “densidad en malla”. La idea principal que persigue este algoritmo es empezar con un conjunto de puntos distintos, cada uno formando su propio grupo. A continuación se empieza recursivamente a unir dos grupos cercanos hasta asegurar que todos los puntos lleguen a pertenecer a un mismo grupo. De este modo en los algoritmos jerárquicos paralelos se utilizan dendogramas para crear grupos y sus distancias mínimas y máximas entre ellos. La unión de grupos se basa en distancias mínimas las cuales son transmitidas junto a un objeto identificador. La propiedad reducción es utilizada para crear el modelo global.

Sunny y Thampi, en el artículo publicado el año 2010 con el título “Estudio sobre minería de datos distribuida en redes P2P”, hacen referencia a investigaciones de “algoritmos de agrupamiento P2P”, considerando las siguientes propuestas: (1) Algoritmo exacto para monitoreo de agrupamiento de k-means. Este algoritmo consiste en monitorear la distribución de los centroides de los nodos locales dispersos y realizar el proceso de k-medias cuando se actualizan los grupos. El algoritmo considera dos fases, la primera fase consiste en monitorear la distribución de los datos mediante un algoritmo exacto; la segunda fase consiste en calcular los centroides mediante un enfoque centralizado. (2) Algoritmo k-medias basado en probar y hacer. Esta propuesta consiste en transmitir los centroides a todos los nodos en la red utilizando el mecanismo probar y hacer. Se requiere una sincronización de todos los nodos en cada iteración lo cual genera congestión en la red. De manera adicional se describen otros 3 algoritmos basados en k-medias P2P. En el artículo de Datta y sus colegas, publicado el año 2006 con el título “Minería de datos distribuida en redes punto a punto”, se propone un algoritmo iterativo basado en el intercambio de mensajes entre nodos conectados directamente para resolver el problema de agrupamiento de k-medias en redes P2P. Se eligen aleatoriamente un conjunto de centroides y se distribuyen sobre todos los nodos. Para cada iteración, cada nodo ejecuta un proceso basado en dos pasos: (1) Idéntico a la primera iteración del algoritmo k-medias estándar; en el cual cada nodo asigna cada uno de sus puntos a su centroide más cercano. (2) Un nodo envía un mensaje a los nodos vecinos conteniendo su identificador y el número de la iteración actual en la cual se encuentra. Se repite el paso (1) y paso (2) hasta que los centroides de las iteración actual y la siguiente no presenten cambios significativos con lo cual el algoritmo habrá concluido.

 

Guillermo Choque Aspiazu
www.eldiario.net
14 de Noviembre de 2016

Enfoques de minería de datos distribuida (primera parte)

Enfoques de minería de datos distribuida (primera parte)

Fayyad y sus colegas, en el artículo publicado el año 1996 titulado “El proceso de descubrimiento de conocimiento en bases de datos, para la extracción de conocimiento útil de volúmenes grandes de datos”, menciona que la minería de datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes conjuntos de datos. Los algoritmos de minería de datos se enmarcan en el proceso completo de extracción de información conocido “descubrimiento de conocimiento en bases de datos”, que se encarga de preparar los datos y de interpretar los resultados obtenidos. El análisis de la información recopilada en algunas ocasiones puede llevarse a cabo de forma manual, utilizando para ello algunas técnicas estadísticas. Sin embargo, cuando la cantidad de datos de los que se dispone aumenta, esta forma de estudio se puede complicar. Allí es donde entra en juego el conjunto de técnicas de análisis automático a las que hace referencia la minería de datos o el descubrimiento de conocimiento en bases de datos.

Según López, en la tesis de maestría publicada el año 2012 con el título “Análisis de las posibilidades de uso de Big data en las organizaciones”, las características principales de la minería de datos son: (1) Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. (2) El entorno de la minería de datos suele tener una arquitectura cliente-servidor. (3) Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. (4) El usuario de la minería de datos es muchas veces un usuario final con poca o ninguna habilidad de programación. (5) Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. (6) Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. (7) La minería de datos produce cinco tipos de información: Asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.

Caridad, en el artículo publicado el año 2001 con el título “La minería de datos: Análisis de bases de datos en la empresa”, menciona que los sistemas informáticos centralizados se difundieron en las décadas de los sesenta y setenta del siglo veinte; luego con la aparición de las mini-computadoras comenzaron a incorporarse procesos automatizados en diferentes campos de aplicación. Finalmente, la difusión masiva de las computadoras personales en la década de los ochenta y de las redes de comunicación generalizaron el uso de los procesos informáticos, obligando así a cambiar las estructuras centralizadas de los centros de procesamiento de datos. Esta idea es complementada por Mitra y Acharya, en el libro publicado el año 2003 con el título “Minería de datos: Multimedia, computación blanda y bioinformática”, quienes señalan que la mayoría de los datos comienzan a ser archivados en varias unidades de almacenamiento, es decir los datos se pueden almacenar en diferentes localidades lógicas, bien sea en un mismo espacio físico o geográficamente distinto. Estas bases de datos relacionadas lógicamente son interconectadas por una red de comunicaciones, dando lugar a las llamadas bases de datos distribuidas.

Han y Kamber, en el libro publicado el año 2006 con el título “Minería de datos: Conceptos y técnicas”, indican que en las bases de datos distribuidas las múltiples computadoras son llamadas nodos o sitios, y pueden tener diferentes esquemas de diseño, como por ejemplo el esquema centralizado, donde la base de datos distribuida está localizada en una sola unidad de almacenamiento y los usuarios están distribuidos. El esquema de réplica, el cual consiste en que cada nodo debe tener su propia copia completa de la base de datos. Esquema fragmentado o particionado, donde solo hay una copia de cada elemento; en este caso la información está distribuida a través de los diferentes nodos y en cada nodo se almacena una o más partes disjuntas de la base de datos. También se puede nombrar el esquema híbrido, el cual no es más que la combinación del esquema de partición y de réplica.

En la tesis de grado de Mamani, publicada el año 2015 con el título “Aplicación de la minería de datos distribuida usando algoritmos de clustering k-means para mejorar la calidad de servicios de las organizaciones modernas”, se menciona que las bases de datos distribuidas se pueden clasificar en homogéneas o heterogéneas. Las bases de datos distribuidas homogéneas son aquellas en las que el mismo esquema de diseño está repetido en cada servidor y los registros se encuentran repartidos en los diferentes nodos. Mientras que, las bases de datos distribuidas heterogéneas son aquellas en las que cada nodo almacena un subconjunto de datos. Mitra y Acharya, en el libro citado anteriormente, señalan que a su vez, el crecimiento de las bases de datos distribuidas dio origen a la necesidad de tratar con grandes cantidades de bases de datos heterogéneas, es decir datos almacenados en múltiples archivos, diferentes unidades de almacenamiento, y diferentes localidades geográficas, por lo que algoritmos más sofisticados en el uso de técnicas de minería de datos deben ser considerados para la integración de las bases de datos distribuidas y la extracción de información de interés de las mismas. Sunny y Thampi, en el artículo publicado el año 2010 con el título “Ensayos sobre minería de datos distribuida en redes P2P”, presentan una taxonomía de los enfoques de minería de datos distribuida, clasifican dicha taxonomía en dos grupos. El primer grupo es conocido como coordinador centralizado y reúne tres subgrupos conocidos como: Agrupamiento distribuido, regla asociativa distribuida y clasificador de aprendizaje distribuido; el segundo grupo es conocido como minería de datos punto a punto y reúne dos subgrupos que se conocen como: Minería de datos compleja y operaciones primitivas.

 

Guillermo Choque Aspiazu
www.eldiario.net
07 de Noviembre de 2016

Translate »