Ciencia de los datos (segunda parte)

Ciencia de los datos (segunda parte)

En diciembre del 2010 Michael E. Driscoll abrió un foro de discusión en torno a la siguiente pregunta ¿Qué es la ciencia de los datos?. En el foro de discusión almacenado en Quora.com, Driscoll aporta su propia definición sobre la ciencia de los datos: “Es la ingeniería civil de los datos. Sus acólitos poseen un conocimiento práctico de herramientas y materiales, junto con una comprensión teórica de lo que es posible”. Por otro lado, Giuseppe Paleologo define la Ciencia de los Datos como “el conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y de recursos de almacenamiento. En la actualidad la mayoría de las fuentes de datos están en Internet y relacionadas con las transacciones, pero no hay que ignorar las primeras aplicaciones de la física de alta energía, la meteorología, las simulaciones militares, así como las futuras aplicaciones en ciencias.”

Mike Loukides, en el libro publicado el año 2011 con el título “¿Qué es la ciencia de los datos?”, menciona que el problema no es encontrar datos sino saber qué hacer con ellos. “La cuestión a la que se enfrenta toda empresa es cómo usar los datos de forma efectiva. No sólo los datos propios sino de múltiples fuentes, todos los datos que están a disposición y son relevantes. Usar los datos de forma efectiva requiere algo diferente de las tradicionales estadísticas”. Lo que diferencia los datos grandes de la estadística es que la ciencia de los datos tiene un enfoque holístico. Cada día se generan más datos en la naturaleza y en la actividad social, espiritual y productiva del hombre. La ciencia de los datos tiene que ver con la recopilación de información, su conversión a un formato factible para su procesamiento y extracción del conocimiento. En un estudio realizado en los Estados Unidos del Instituto Global McKinsey, se plantea que un reto urgente e importante lo constituye la escasez del talento analítico y de gestión necesario para sacar el máximo provecho al análisis de datos grandes. En dicho reporte se expone que, tan solo en Estados Unidos, cinco millones de puestos de trabajo requerirán de habilidades en el análisis de datos para el año 2018. Además se necesitarán un millón y medio de directivos y analistas con profundas habilidades analíticas y técnicas que puedan realizar las preguntas correctas a los datos y utilizar los resultados que brinde dicho análisis de manera efectiva.

En el artículo publicado el año 2014 con el título “La ciencia de los datos y su impacto en la gestión universitaria, el investigador Giraldo León menciona que en estos momentos se vive una verdadera explosión en cuanto a la cantidad de datos a nivel mundial. La empresa IBM estima que el noventa por ciento de los datos existentes en la actualidad han sido creados tan solo en los últimos dos años. La capacidad de la humanidad para extraer el valor social y económico de los datos recientemente disponibles está limitada por su propia falta de experiencia. Se requiere de todo un conjunto de nuevas habilidades y herramientas con este fin. El volumen de datos puede llegar a ser tan grande que no cabe en una sola computadora, es imposible ser procesado por los sistemas de gestión de bases de datos, paquetes estadísticos o sistemas de representación gráfica tradicionales. Los textos digitalizados, el audio y contenido visual, al igual que los datos de sensores y Weblogs suelen estar desordenados, incompletos y no estructurados, muchas veces de origen y calidad dudosa. Además, durante el trabajo con datos provenientes de diversos y dispersos usuarios, se tocan temas relacionados con la privacidad, autenticidad y seguridad.

Loukides, en el libro citado, plantea que “la Web está llena de aplicaciones basadas en datos, siempre hay una base de datos detrás de un front-end,” tal es el caso de las aplicaciones de los bancos, de comercio electrónico o de enseñanza en línea en una universidad. Sin embargo, no siempre cuando se usan, e incluso analizan datos, se aplica la ciencia de los datos. Una aplicación basada en datos brinda su valor añadido a partir de sus propios datos, transformándose de una aplicación que usa datos a un producto de datos, o sea, el dato como producto resultante del procesamiento. Google es un líder mundial en la elaboración de productos de datos. Existen ejemplos tales como el algoritmo para establecer el ranking de una página Web. Dicho algoritmo fue el primero que utilizó información externa a la propia página, o sea, el número de enlaces o citas realizadas a dicha página. La empresa Amazon salva las búsquedas de productos o servicios de cada usuario y las correlaciona con las búsquedas de otros usuarios obteniendo como resultado impresionantes sugerencias. El hilo común que une la mayoría de estas aplicaciones lo constituye el hecho de que los datos recopilados a partir de la interacción con cada usuario aporta un valor añadido. Ya sean los datos con los términos de una búsqueda, una muestra de voz, o un comentario, todos los usuarios conforman un lazo de retroalimentación que tributa al completamiento y mejora de los productos de datos ofertados. Ese es el principio básico de la ciencia de datos.

Si se retoma lo planteado acerca de la explosión actual de los datos a nivel mundial en todo tipo de organizaciones productivas, de servicios tales como hospitales o universidades, puede observarse fácilmente que las organizaciones emplean no sólo sus propios datos o los datos que le brindan sus usuarios, sino también datos de otras fuentes como puede ser el empleo de mapas de zonas geográficas con vistas a analizar o visualizar los resultados de determinados indicadores. O sea, en cada caso pueden incluirse no solo los datos propios, sino todos aquellos que puedan ser relevantes ante determinado análisis o investigación. Lo que diferencia a la ciencia de datos de las estadística es que la ciencia de datos tiene un enfoque holístico. Cada día se encuentran más y más datos en la naturaleza y los científicos de datos están involucrados en su recopilación, su adecuado “acondicionamiento”, de forma tal que puedan ser manejados lo mejor posible y, de ese modo, dichos datos puedan contar su historia permitiendo posteriormente a estos especialistas presentar dichas historias a los demás.

 

Guillermo Choque Aspiazu
www.eldiario.net
18 de Mayo de 2015

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Translate »