Etiqueta: datos

Ciencia de los datos (segunda parte)

Ciencia de los datos (segunda parte)

En diciembre del 2010 Michael E. Driscoll abrió un foro de discusión en torno a la siguiente pregunta ¿Qué es la ciencia de los datos?. En el foro de discusión almacenado en Quora.com, Driscoll aporta su propia definición sobre la ciencia de los datos: “Es la ingeniería civil de los datos. Sus acólitos poseen un conocimiento práctico de herramientas y materiales, junto con una comprensión teórica de lo que es posible”. Por otro lado, Giuseppe Paleologo define la Ciencia de los Datos como “el conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y de recursos de almacenamiento. En la actualidad la mayoría de las fuentes de datos están en Internet y relacionadas con las transacciones, pero no hay que ignorar las primeras aplicaciones de la física de alta energía, la meteorología, las simulaciones militares, así como las futuras aplicaciones en ciencias.”

Mike Loukides, en el libro publicado el año 2011 con el título “¿Qué es la ciencia de los datos?”, menciona que el problema no es encontrar datos sino saber qué hacer con ellos. “La cuestión a la que se enfrenta toda empresa es cómo usar los datos de forma efectiva. No sólo los datos propios sino de múltiples fuentes, todos los datos que están a disposición y son relevantes. Usar los datos de forma efectiva requiere algo diferente de las tradicionales estadísticas”. Lo que diferencia los datos grandes de la estadística es que la ciencia de los datos tiene un enfoque holístico. Cada día se generan más datos en la naturaleza y en la actividad social, espiritual y productiva del hombre. La ciencia de los datos tiene que ver con la recopilación de información, su conversión a un formato factible para su procesamiento y extracción del conocimiento. En un estudio realizado en los Estados Unidos del Instituto Global McKinsey, se plantea que un reto urgente e importante lo constituye la escasez del talento analítico y de gestión necesario para sacar el máximo provecho al análisis de datos grandes. En dicho reporte se expone que, tan solo en Estados Unidos, cinco millones de puestos de trabajo requerirán de habilidades en el análisis de datos para el año 2018. Además se necesitarán un millón y medio de directivos y analistas con profundas habilidades analíticas y técnicas que puedan realizar las preguntas correctas a los datos y utilizar los resultados que brinde dicho análisis de manera efectiva.

En el artículo publicado el año 2014 con el título “La ciencia de los datos y su impacto en la gestión universitaria, el investigador Giraldo León menciona que en estos momentos se vive una verdadera explosión en cuanto a la cantidad de datos a nivel mundial. La empresa IBM estima que el noventa por ciento de los datos existentes en la actualidad han sido creados tan solo en los últimos dos años. La capacidad de la humanidad para extraer el valor social y económico de los datos recientemente disponibles está limitada por su propia falta de experiencia. Se requiere de todo un conjunto de nuevas habilidades y herramientas con este fin. El volumen de datos puede llegar a ser tan grande que no cabe en una sola computadora, es imposible ser procesado por los sistemas de gestión de bases de datos, paquetes estadísticos o sistemas de representación gráfica tradicionales. Los textos digitalizados, el audio y contenido visual, al igual que los datos de sensores y Weblogs suelen estar desordenados, incompletos y no estructurados, muchas veces de origen y calidad dudosa. Además, durante el trabajo con datos provenientes de diversos y dispersos usuarios, se tocan temas relacionados con la privacidad, autenticidad y seguridad.

Loukides, en el libro citado, plantea que “la Web está llena de aplicaciones basadas en datos, siempre hay una base de datos detrás de un front-end,” tal es el caso de las aplicaciones de los bancos, de comercio electrónico o de enseñanza en línea en una universidad. Sin embargo, no siempre cuando se usan, e incluso analizan datos, se aplica la ciencia de los datos. Una aplicación basada en datos brinda su valor añadido a partir de sus propios datos, transformándose de una aplicación que usa datos a un producto de datos, o sea, el dato como producto resultante del procesamiento. Google es un líder mundial en la elaboración de productos de datos. Existen ejemplos tales como el algoritmo para establecer el ranking de una página Web. Dicho algoritmo fue el primero que utilizó información externa a la propia página, o sea, el número de enlaces o citas realizadas a dicha página. La empresa Amazon salva las búsquedas de productos o servicios de cada usuario y las correlaciona con las búsquedas de otros usuarios obteniendo como resultado impresionantes sugerencias. El hilo común que une la mayoría de estas aplicaciones lo constituye el hecho de que los datos recopilados a partir de la interacción con cada usuario aporta un valor añadido. Ya sean los datos con los términos de una búsqueda, una muestra de voz, o un comentario, todos los usuarios conforman un lazo de retroalimentación que tributa al completamiento y mejora de los productos de datos ofertados. Ese es el principio básico de la ciencia de datos.

Si se retoma lo planteado acerca de la explosión actual de los datos a nivel mundial en todo tipo de organizaciones productivas, de servicios tales como hospitales o universidades, puede observarse fácilmente que las organizaciones emplean no sólo sus propios datos o los datos que le brindan sus usuarios, sino también datos de otras fuentes como puede ser el empleo de mapas de zonas geográficas con vistas a analizar o visualizar los resultados de determinados indicadores. O sea, en cada caso pueden incluirse no solo los datos propios, sino todos aquellos que puedan ser relevantes ante determinado análisis o investigación. Lo que diferencia a la ciencia de datos de las estadística es que la ciencia de datos tiene un enfoque holístico. Cada día se encuentran más y más datos en la naturaleza y los científicos de datos están involucrados en su recopilación, su adecuado “acondicionamiento”, de forma tal que puedan ser manejados lo mejor posible y, de ese modo, dichos datos puedan contar su historia permitiendo posteriormente a estos especialistas presentar dichas historias a los demás.

 

Guillermo Choque Aspiazu
www.eldiario.net
18 de Mayo de 2015

Ciencia de los datos (primera parte)

Ciencia de los datos (primera parte)

En la era de los datos masivos, todo se vuelve dato, menciona Guzmán en la charla presentada en el día mundial de la estadística, el año 2014 con el título “El rol de la estadística en un mundo hiperconectado”, además señala que la producción de los datos aumenta exponencialmente. Cada vez el mundo está más lleno de datos, y cada vez se tiene más acceso a éstos, aunque aún la mayor parte de la información producida no está al alcance de las personas o no es útil. Cada una de las personas cercanas, en cualquier lugar que otra persona se encuentre, tiene un teléfono celular, el que aun sin usarlo está produciendo datos sobre su ubicación, sobre mensajes y llamadas recibidas. Cada vez que se navega en Internet se está produciendo datos sobre conductas, preferencias, etc. Cuando se pasa cerca de una cámara, o cuando se utiliza una cámara para tomar fotos, se está produciendo datos o se está ayudando a producirlos. Cuando se compra, cuando se pone un “me gusta” en Facebook, se está creando datos. Pero no se genera un dato aislado. Cada “me gusta” está asociado con las características de quien lo puso. De este modo, el dato se convierte en la covariable de otro dato. Datos que están concatenados a otros datos y que hablan de los gustos, ambiciones, temores, celebraciones, y otros aspectos de la vida de las personas, incluso algunos que pueden ser bastante íntimos.

Por su parte, en las noticias publicadas por el portal de universidades españolas “Universia”, específicamente la publicada en junio del año 2014 con el título “El científico de datos: Una novedosa y necesaria profesión”, se menciona que a diario en el mundo se generan dos trillones y medio de bytes de información. Esta información proviene de todos lados, sensores que recogen información climática, publicaciones en las redes sociales, imágenes y vídeos digitales, registros de compra y transacciones y señales de los sistemas de posicionamiento global de los dispositivos móviles, entre otros. Toda esta información se conoce como “datos grandes” y es a partir de esta fuente masiva de datos que es inminente el nacimiento de un profesional que conozca y genere un uso a esta información: el científico de datos.

El profesor Hal Varian de la Universidad de Berkeley en California, en la entrevista publicada el año 2009 por la compañía McKinsey, menciona que la profesión del futuro seria la que tuviera la habilidad de hacer posible que los datos fueran comprendidos, de ser procesados, de extraerles valor, de visualizarlos, de comunicarlos, todo lo cual será una tarea tremendamente importante en las décadas siguientes. Y no solamente para el profesional sino también para la educación en sus distintos niveles, desde la enseñanza primaria a la enseñanza universitaria. Y esto porque se dispone de datos libres y ubicuos. Añadió tambien que la consecuencia era entender el significado de los datos y extraer su valor. El profesor Varian, en la obra citada, siguió explicando que la ciencia de los datos era como una disciplina estadística, pero señalando que hay más que el puro numero aislado, que la tarea esencial es de visualización, comunicación y utilización de los datos. La estadística es parte de ello, pero solo una parte. También se desea ser capaz de visualizar los datos, comunicarlos, utilizarlos de manera efectiva. También opinaba que estas capacidades de acceder, entender y comunicar el conocimiento que se puede obtener del análisis de los datos, seria de extrema importancia para que los gestores y directivos de las organizaciones, de las empresas e instituciones, puedan acceder y comprender los datos directamente ellos mismos.

En el artículo publicado el año 2014 con el titulo “La ciencia de los datos y el conocimiento en la empresa”, Fernando Piera menciona que la capacidad de improvisar soluciones de integración de datos utilizando sistemas operativos, bases de datos y lenguajes de programación distingue claramente la ciencia de los datos de la tradicional investigación estadística. En el mismo artículo cita al bioestadístico Michael Elashoff, quien alude que el término “científico de datos” es realmente más que un reconocimiento a la gente de este campo que necesita múltiples tipos de conocimientos. Reconoce el hecho de que la observación de los datos requiere más que habilidades analíticas. La función del científico de los datos es hacer que los datos tengan sentido, facilitar una comprensión clara del universo de la organización a través del análisis de los datos, ayudando en la mejora del proceso de toma de decisiones y apoyando al liderazgo. Los mejores científicos de los datos también deben interesarse por el descubrimiento de nuevas visiones de los datos. Serán creativos en su aproximación a la identificación y resolución de problemas. La experiencia profesional de estos científicos se encuentra en los siguientes tres pilares: (1) Profundo conocimiento teórico de estadística y conmutabilidad; (2) Conocimiento práctico de variadas herramientas de ciencia de los datos y la capacidad de comunicar efectivamente cuando es necesario; (3) Una capacidad para comunicar de manera efectiva con la gente que no tenga conocimientos técnicos sobre temas técnicos muy complejos. Pueden utilizar un surtido variado de las herramientas existentes de análisis de datos y también tener el conocimiento estadístico y habilidades de programación necesarias para desarrollar sus propias herramientas. Muchos problemas de análisis pueden ser resueltos utilizando las herramientas existentes, pero el científico de los datos también debe estar en condiciones de desarrollar las herramientas que necesite para atacar nuevos problemas que se le puedan plantear.

 

Guillermo Choque Aspiazu
www.eldiario.net
11 de Mayo de 2015

Datos en correo electrónico (segunda parte)

Datos en correo electrónico (segunda parte)

El correo electrónico es como dice Barón, en el libro publicado el año 2000 con el título “Del alfabeto al correo electrónico: Como ha evolucionado el inglés escrito y hacia dónde se dirige”, “un idioma centauro emergente, con una parte de escritura y una parte de habla” o como afirma Yus, en el libro publicado el año 2001 con el título “Ciberpragmática. El uso del lenguaje en Internet”, “un medio de comunicación híbrido entre la estabilidad del soporte escrito y la volatilidad de la palabra hablada.” Lo que se resalta es que los datos asociados al correo electrónico son dependientes del lenguaje en el que se escribe los diferentes mensajes que circulan cada fracción de segundo en la red de redes o Internet.

La investigadora Cristina Vela, en la tesis doctoral escrita el año 2006 titulada “El correo electrónico: El nacimiento de un nuevo género”, menciona que hay empresas que ofrecen cuentas de correo gratuitas a través de interfaces en páginas Web. El hecho de que para consultar el correo se requiera la visita a una página Web supone una ventaja para la empresa, ya que convierte el sitio en un lugar óptimo para albergar publicidad. También es posible contratar buzones de pago que ofrecen a sus usuarios ventajas alternativas, como una mayor capacidad de almacenamiento, filtrado de mensajes no deseados, etc. Un mensaje de correo electrónico no sólo permite el envío de secuencias de texto, sino que ofrece la posibilidad de incluir cualquier archivo adjunto y, por ello, la estructura básica de un mensaje consta de tres elementos: El texto del mensaje, los archivos adjuntos, cuando los hubiera, y el encabezado. Desde un punto de vista técnico el encabezado constituye un componente indispensable, ya que en él se contiene toda la información necesaria para el transporte del mensaje: Las direcciones de los buzones de los remitentes y destinatarios, quienes recibirán copia del mensaje, etc. El encabezado tiene una estructura estable que refleja su naturaleza codificada. Se divide en una serie de líneas, una por cada campo, codificadas en formato ASCII y, por tanto, legibles por los protocolos de intercambio de mensajes.

Albarran, De Pablos y Montero, en el artículo publicado el año 2008 con el título “Uso del correo electrónico: Un análisis empírico en la UCM”, indican que el correo electrónico permite el envío de mensajes por medios informáticos. Los mensajes se almacenan en un buzón personal. Cuando cada usuario consulta su correspondencia puede visualizar, almacenar o reenviar mensajes recibidos. Los mensajes enviados pueden estar en cualquier tipo de formato, texto, gráficos, imágenes, sonido, etc. El correo electrónico es un medio que permite la instantaneidad de comunicación entre receptor y emisor. Sáenz Vacas, mencionado en el artículo de Albarran y sus colegas, hace referencia al correo electrónico bajo las siglas EAUDI tratando destacar las características típicas que hacen a este medio idóneo para ciertos tipos de comunicación en las organizaciones: (1) Electrónico. Utiliza medios electrónicos de gestión y transporte. (2) Asíncrono. No necesita sincronía en envío y recepción. (3) Ubicuo. Permite su acceso en diferentes lugares. (4) Digital. Utiliza información digitalizada. (5) Informático. Está en relación con las tecnologías de la información. Algunas de las principales ventajas e inconvenientes del correo electrónico son: (1) Rapidez y fiabilidad en la recepción y envío de mensajes. (2) Incrementa el contacto personal. (3) No requiere simultaneidad del remitente y el receptor. (4) Permite una mejor transmisión de los mensajes complejos. (5) Facilidad de archivo, reenvío e integración. (6) Mejora la consistencia de los mensajes. (7) Bajo costo. (8) Incrementa la motivación y el ánimo. (9) Facilita la comprensión en algunos casos.

Vela, en la tesis citada, argumenta que desde un punto de vista técnico, el correo electrónico constituye una aplicación de la “comunicación mediatizada por la computadora” que permite el intercambio, el almacenamiento y la gestión de mensajes de texto, que ocasionalmente, pueden verse acompañados de otro tipo de archivos. Gracias a una conexión a Internet y mediante el empleo de una aplicación de gestión de correo adecuada, cualquier usuario que disponga de un buzón en un servidor de correo podrá disfrutar de este medio de comunicación. El correo electrónico se ha convertido en un espacio de producción lingüística novedoso al que se puede asociar la aparición de un nuevo género textual. Desde un enfoque lingüístico, el correo electrónico se define como un sistema de interacción mediatizada que soporta intercambios de tipo individual o colectivo, real o virtual y que se sustenta en la transacción de textos digitalizados con una forma, función, estructura, lengua y estilo propios. Tal y como sostiene López Alonso, en el libro publicado el año 2003 titulado “Nuevos géneros discursivos: Los textos electrónicos”, esta identidad textual implica, en primer lugar, un entorno específico de comunicación, en segundo, una relación abierta entre los coenunciadores y, finalmente, una modalidad revolucionaria en la manera de transmitir la correspondencia. Yus, en el libro publicado el año 2001 titulado “Ciberpragmática. El uso del lenguaje en Internet”, menciona que es posible afirmar que el correo electrónico manifiesta diversos usos y funcionalidades sociales. Su prototipo, sin embargo, se identifica con un modo de interacción interpersonal, sin copresencialidad de los interlocutores, de carácter mediado y temporalidad diferida, que implica el desarrollo de actos de comunicación ostensiva, es decir, que por definición portan su presunción de relevancia, mediante el intercambio de textos escritos digitalizados, producidos y enviados mediante el empleo de unos programas específicos creados para la gestión de correspondencia electrónica, a través de la red de redes o Internet.

 

Guillermo Choque Aspiazu
www.eldiario.net
04 de Mayo de 2015

Datos en correo electrónico (primera parte)

Datos en correo electrónico (primera parte)

En el artículo escrito el año 2008 por los investigadores Albarran, De Pablos y Montero, con el título “Uso del correo electrónico: Un análisis empírico en la UCM”, se menciona que en las últimas décadas, el uso de computadoras personales ha popularizado un número considerable de servicios de información, incluyendo el correo electrónico. El correo electrónico, o en la jerga anglosajona el e-mail, es una forma de intercambio de información en la que se mandan mensajes de una computadora personal o terminal a otra vía módems y sistemas de telecomunicaciones. El uso del correo comenzó con ARPAnet, red precursora de Internet, en el año 1969 en los Estados Unidos, extendiéndose de forma gradual con el uso de los mainframes y las minicomputadoras basadas en redes locales en los años setenta y con un rápido crecimiento gracias al uso de Internet en la década de los años ochenta. El correo electrónico en sus inicios se plantea como un medio de intercambio de información para grupos pequeños y selectos. Actualmente su uso se ha extendido a millones de usuarios por todo el mundo.

El correo electrónico es una aplicación de Internet cuya finalidad consiste en procurar la comunicación entre dos o más personas a través del intercambio de textos escritos digitalizados. En la tesis doctoral escrita el año 2006 titulada “El correo electrónico: El nacimiento de un nuevo género”, por la investigadora Cristina Vela, este medio permite y genera un tipo de interacción verbal mediatizada de carácter diferido. Se trata de un sistema basado en un principio simple: Un usuario de correo electrónico dispone de un espacio, denominado buzón, en una computadora conectada constantemente a la red, al servidor, en el que se almacenan los mensajes enviados por otros usuarios. Este buzón se identifica mediante una secuencia llamada dirección electrónica. Cuando se quiere acceder a la consulta de los mensajes recibidos basta con conectarse con el servidor y abrir, mediante la palabra clave, el buzón. Los mensajes pueden conservarse en el servidor, ocupando un espacio en el mismo, o descargarse y guardarse en la computadora del usuario. El tipo de sistema empleado para el acceso al buzón, a través del servicio de correo en la Web o de un sistema de acceso local, determina una u otra circunstancia.

El correo electrónico se diferencia en un aspecto muy importante del resto de las aplicaciones de Internet como Telnet, FTP o la Web. Todos estos servicios y protocolos presuponen una conexión directa entre remitente y destinatario, es decir, entre la máquina cliente y la máquina servidor, en tiempo real. En el caso del correo electrónico esta relación es diferente. La computadora del destinatario no tiene que estar conectada a la red al mismo tiempo que la del remitente, ya que en el correo electrónico intervienen unas entidades denominadas “enrutadores de correo”, servidores locales de correo electrónico, que reciben y aceptan los mensajes para transmitirlos, posteriormente, a sus destinatarios finales. Para llevar a cabo esta mediación los usuarios deben utilizar programas adecuados de gestión de correo que dominen el “protocolo simple de transferencia de correo”. Este protocolo no sólo le es útil al remitente de un mensaje para asegurar su recepción, sino que es empleado por los enrutadores de correo para hacer que los mensajes circulen entre ellos.

Vela, en la tesis doctoral citada, señala que el mensaje viaja de un enrutador de correo al siguiente hasta que llega a aquél que tiene competencias para el destinatario del mensaje. El hecho de tener competencias significa que el destinatario ha contratado un buzón en el servidor de correo electrónico. El software del servidor de correo guarda los mensajes separándolos en directorios por usuarios. Una vez en el buzón, cada usuario se encarga de recoger por sí mismo su correo mediante el software adecuado. Además de la ventaja que supone recuperar el correo cuando se quiera, con este método un usuario puede consultar su correo desde cualquier computadora, independientemente de dónde se encuentre, siempre que disponga de acceso a Internet. Estos beneficios se ofrecen en las cuentas de correo a través del “protocolo de oficina de correo”, al que se suele acceder a través del correo en la Web, aunque también es posible consultarlo mediante sistemas de gestión independientes de la Web.

Albarran y sus colegas, en el artículo citado anteriormente, mencionan que el correo electrónico es el servicio más utilizado de los que existen hoy en Internet. Desde el año 1970 se ha empleado como herramienta de comunicación para relaciones académicas y personales. Por el año 1990, la popularidad y ubicuidad del correo sobre el resto de los medios de comunicación tradicionales ha permitido que se reconozca como medio estándar de comunicación. Algunos hitos interesantes en la historia del correo electrónico son los siguientes: (1) Octubre 1969, Leonard Kleinrock, un profesor de informática de la universidad de UCLA manda el primer mensaje de correo electrónico a un compañero de la universidad de Stanford. (2) Marzo 1972, Ray Tomlinson, autor del primer software para correo electrónico, elige el símbolo @ para las direcciones de correo electrónico. (3) Febrero 1976, la reina Isabel II es la primera jefa de estado en mandar un mensaje de correo electrónico. (4) Otoño 1976, Jimmy Carter y Walter Mondale utilizan correo electrónico todos los días durante su campaña para coordinar itinerarios. Un mensaje simple cuesta cuatro dólares. (5) Septiembre 1983, el college de Colby en Waterville, Maine es una de las primeras instituciones de educación superior en asignar cuentas de correo a todos sus estudiantes. (6) Enero 1994, el New Yorker publica una entrevista sobre correo electrónico con Bill Gates, quien escribe: “nuestro correo es totalmente seguro”.

 

Guillermo Choque Aspiazu
www.eldiario.net
27 de Abril de 2015

Translate »