Big data: los orígenes

Actualmente, el término Big Data está en boga en la
industria tecnológica. Por todas partes
se oye hablar de nuevas tecnologías y aplicaciones basadas en el término. Sin
embargo, muchos de estos usos y tecnologías eran ya conocidos en el pasado con
otros nombres. Business intelligence, machine learning, predictive
modeling…¿Qué es realmente Big Data y cuál es el origen del término?

Por tomar un medio popular, si tomamos la Wikipedia en
español, por ejemplo, la definición remite a: «sistemas informáticos
basados en la acumulación a gran escala de datos y de los procedimientos usados
para identificar patrones recurrentes dentro de esos datos».

Pero en inglés es levemente diferente: «is a broad term for data sets so large
or complex that traditional data processing applications are inadequate»
(término amplio para conjuntos de datos tan grandes y complejos que las
aplicaciones de procesamiento de datos son inadecuadas).

En todo caso, está claro que el término se utiliza para
referenciar el análisis predictivo, una forma de extraer valor de estos datos.
El primer uso del término se rastrea hasta el año 2005, cuando lo utiliza por
primera vez O´Reilly Media, pero su uso se dispara a partir de 2013, con la
publicación del ensayo canónico de Viktor Mayer-Schönberger y Kenneth Cukier,
«Big Data: A Revolution That Will Transform How We Live, Work, and
Think», como se demuestra en esta gráfica de Google Trends.

Sin embargo, como se ve, el término Big Data no hace
referencia a una sola técnica, tecnología o aplicación novedoas sino a un
conjunto de ellas que ya existían, desarrolladas a lo largo del tiempo, con
otros nombres, y que convergen en los últimos años, acompañando la explosión de
datos.

IDC Digital Universe Study

Es la interpretación que hace la IEEE, que lo define como una medida de conjunto, donde
el conjunto no está definido, dado que término «big» habría que
redefinirlo cada día, dado que los datos crecen continuamente y a un ritmo cada
vez más alto.

Es que a partir de la década de 2010, el volumen de datos
digitales generados y almacenados en sistemas informáticos creció
exponencialmente a partir de una serie de hechos:

El
exponencial crecimiento en el uso de redes sociales, donde los usuarios
comparten cada día millones de entradas de texto, imagen o video.
La
adopción masiva smartphones conectados a Internet, transformando lo que hasta
entonces era un dispositivo analógico en otro generador de registros digitales.
El
despliegue de millones de equipos autónomos conectados a Internet (M2M o IoT),
generando en forma automática otros millones de registros digitales (sensores,
robots, máquinas autónomas)
La
digitalización de datos en numerosas industrias: imagen médica, medios de
comunicación, editoriales y muchas otras.

En síntesis, las tecnologías que engloban el Big Data, ya
estaban allí, para gestionar la
explosión de datos producida en los últimos años, y resolver una enorme
cantidad de problemas prácticos y oportunidades que se presentan con esta enorme
disponibilidad de datos.

Pero ¿Es esta explosión de datos realmente original? ¿No
ocurrió nunca antes en la historia? ¿Y cuál es el origen de estas técnicas que
ahora englobamos bajo el nombre de Big Data. Y como comentaba Julio Verne:
«El futuro está escrito en el pasado», intentaremos ver hacia dónde
podría llevarnos el Big Data.

La primera explosión de datos

Algunos analistas, volviendo muy atrás en el tiempo,
refieren a la creación de tablillas cuneiformes y ábacos hace 10,000 años
cuando la memoria humana y las operaciones digitales (de los dedos de las
manos) se volvieron inadecuadas para manejar un creciente volumen de
transacciones comerciales y cálculo de tributos. Pero creo que es ir demasiado lejos. La primera gran explosión de datos se produce
a finales del siglo XIX, como hemos contado aquí.
(http://gestionyti.blogspot.com.es/2015/06/comunicaciones-vintage-una-red-global.html)

El desarrollo vertiginoso de la red telegráfica global desde
mediados del siglo XIX trajo aparejada la necesidad de gestionar miles, cientos
de miles y luego millones de mensajes en un período de tiempo muy corto. Si lo miramos los EE.UU. en 1850, apenas 10
años después de la invención del telégrafo, ya existían más de 20,000 millas de
cables telegráficos y 75 compañías que operaban los servicios. En 1867 ya se enviaban por las líneas la
extraordinaria cantidad de 5,8 millones de mensajes, sólo en los EE.UU.

Pero lo mismo ocurría en el resto del mundo. En España, por
ejemplo, la construcción de líneas comenzó en 1853 y en 10 años ya alcanzaba
todas las principales ciudades de la península.

Desde la década de 1860 ya existían cables submarinos
cruzando el Atlántico, con lo cual se multiplicó el tráfico al interconectarse
las redes europeas y americanas. Este
intercambio de mensajes se basaba al principio en el «telégrafo
Morse» clásico: una sencilla llave eléctrica operada manualmente para
dejar pasar o no corriente, siguiendo el código de «puntos» y
«rayas».

Llave del telégrafo Morse

Era un sistema muy engorroso. Requería que el receptor transcribiera el
mensaje en un papel, para que luego se decodificara, otra vez manualmente, en
letras y números, para entregar al destinatario. Si el mensaje debía de pasar por varios
puntos de interconexión, el mensaje debía ser codificado y decodificaco en
Morse varias veces, multiplicando el riesgo de errores o pérdidas de mensajes.
Con el incremento del número de mensajes la calidad de servicio se volvió
crítica.

La solución vino de la mano de un mecanismo automático para
almacenar y reutilizar la información de los mensajes: el telégrafo
impresor. Cada pulso telegráfico era
traducido en un punto o raya perforando una cinta de papel. Una vez codificado el mensaje, la cinta de
papel podía ser leída por el equipo transmisor que la transformaba en pulsos
eléctricos. En el otro extremo se
imprimía una cinta similar que podía ser decodificada (a mano) o reinsertada en
otro equipo transmisor para enviar a otro destino.

El sistema fue desarrollado por el ingeniero escocés
Alexander Bain en 1846, luego mejorado e incorporado a los sistema telegráficos
Wheatstones, a partir de la década de 1850, generalizándose su uso. El sistema aceleraba hasta 8 veces el envío
de mensajes respecto de la forma tradicional, con mucha mayor fiabilidad. Además brindaba un mecanismo seguro para
almacenar copias de los mensajes, transmitir mensajes recurrentes y otras
ventajas.

Telégrafo impresor-Nótese la cinta de papel para almacenar
datos

Digamos que esta fue una primera innovación disrruptiva de
gestionar la explosión de datos. Estos
sistemas fueron evolucionando con el tiempo a medida que la tecnología
electrónica fue permitiendo una mayor velocidad de procesamiento y mejores
sistemas de codificación.

Volviendo a la actualidad se dice que el volumen de datos
capturados y recogidos crece un 50% cada año y que en los dos últimos años se
ha generado el mismo volumen de datos almacenados que en toda la historia
previa de la humanidad. Es
evidentemente, una explosión todavía mayor a la que ocurriese a mediados del
Siglo XIX. Y este proceso tiende a
acelerarse en la medida en que millones de nuevos equipos (coches, sensores,
dispositivos wearables) se conecten a Internet y empiecen a transferir datos.

Hasta el momento, esta explosión ha podido ser gestionada
por la tecnología existente, mejorando el rendimiento de los equipos de
procesamiento y almacenamiento de datos, bajo las arquitecturas
tradicionales. No obstante, el ejemplo
del siglo XIX nos hace pensar si puede llegar un momento en que la demanda de
mayores capacidades de proceso y archivo supere a las mejoras en la tecnología.

Si miramos la evolución a corto plazo de las tecnologías de almacenamiento, la
idea se vuelve inquietante: no hay a 5 años vista cambios disrruptivos en este
campo, se prevé sólo una evolución de las líneas actuales
(http://www.zdnet.com/article/the-future-of-storage-2015-and-beyond/). ¿Será el
momento de invertir activamente en nuevas tecnologías de almacenamiento?

Si nos atenemos a la definición «popular» de Big
Data, otro buen ejemplo en la antigüedad sería el de los censos. Se vienen
realizando censos poblacionales por razones demográficas, políticas, pero sobre
todo fiscales, desde la Antigüedad, pero en general con métodos y
aproximaciones prácticas y sin una periodicidad determinada. El primer país que se impuso la necesidad
legal de un censo periódico (cada 10 años) fueron los EE.UU., dado que sería la
base para establecer la representación política de cada Estado de la Unión y,
como no, el reparto del presupuesto federal.
Era un censo muy detallado en un territorio enorme.

El censo de 1880 llevó 7 años y medio para procesarse, lo
que hizo evidente que las técnicas utilizadas ya no eran eficaces para manejar
el volumen de datos que se manejaba. Cuando los datos estaban completos ya era
completamente obsoletos en un país que crecía con oleadas de inmigrantes y
grandes migraciones internas y para el censo de 1890 el problema sería todavía
más serio. Era necesario encontrar otros medios para gestionar la
«explosión de datos» (recordemos «las aplicaciones de
procesamiento de datos son inadecuadas»).

Para manejar esta «explosión de datos», un
Ingeniero del Departamento de Censos, Herman Hollerith, desarrolló el primer
tabulador automático. Este se basaba en
un mecanismo bastante sencillo. En lugar
de sumar a mano millares de planillas, Hollerith decidió codificar las
preguntas del censo de 1890 en «tarjetas perforadas» utilizando
preguntas sencillas llevadas a un código binario que se respondían por
«Si» o «No» (Sexo, Grupo de Edad, Nivel educativo, etc). (Foto en el encabezado)

El mecanismo era muy simple. Las tarjetas se situaban en
pilas y la máquina las iba dejando caer (abriendo y cerrando una puerta), sobre
una placa. Entonces unas agujas bajaban sobre la tarjeta. Si la tarjeta estaba
perforaba la aguja tocaría un contacto situado en la placa debajo de la
tarjeta. Al hacer esto se cerraba un circuito y el pulso eléctrico hacía que se
incrementara un contador. Si el espacio no estaba perforado, la aguja no
generaba contacto y el contador no se incrementaba. Con este mecanismo,
Hollerith procesó todo el censo de 1890 en sólo…¡6 semanas!.

Actualmente venimos ganando la carrera. Nuestra capacidad de procesamiento de datos
viene rigiéndose por la «Ley de Moore», que indica que
«aproximadamente cada dos años se duplica el número de transistores en un
circuito integrado», multiplicando la capacidad de proceso a medida que
bajan los costes. Esta observación,
formulada por Gordon Moore en 1965, se ha venido cumpliendo, dado que ha
servido como principio rector de la industria desde esa época. No obstante, hay síntomas de que este
principio está llegando a su agotamiento.

Intel (http://news.cnet.com/2100-1008-5112061.html) calcula
que los límites físicos de la actual arquitectura de procesadores se alcanzarán
en 2018 (o 2025 con algunas evoluciones). En 2011, en la revista Science se
estimó que pico máximo de crecimiento en capacidad de proceso se alcanzó en
1998 y que después ha ido decreciendo.
El Big Data, interpretado como una «explosión» en la demanda
de procesamiento podría generar también cambios disrruptivos en las tecnologías
de microprocesadores, muchas de las cuáles están ya en fase de experimentación,
en el mundo de las nanotecnologías.

Finalmente, respecto al uso de los modelos predictivos (es
decir, técnicas para predecir un resultado, a partir de precedentes o del
desarrollo de reglas), podemos decir que es MUY antiguo. El propio método científico y las técnicas de
razonamiento lógico de Aristóteles en la Antigua Grecia podrían ser un punto de
partida. Por supuesto, aquí nos costaría
definir cómo representar y analizar en conjunto una gran cantidad de casos, con
las limitadas herramientas de la época (memoria y papel).

Sin embargo, ya en el Siglo XIII, el mallorquín Ramón Llul
diseñó un «máquina lógica» para generar resultados a partir de la
combinación de conceptos básicos, aunque con un número de reglas muy limitado.
Llul creía que se podía obtener una respuesta a cualquier cuestión a partir de
la combinación de 9 conceptos básicos, una gran simplificación. Fue un gran
avance en el sentido de que se intentó desarrollar un mecanismo de razonamiento
automático, no humano. El trabajo de Llul influyó en las máquinas calculadoras
de Leibniz y Pascal (aunque estos orientaron su trabajo al cálculo numérico).

Técnicas modernas como la regresión numérica datan de
principios del siglo XIX y se aplicaron inicialmente para predecir la órbita de
planetas y satélites a partir de observaciones previas, sin embargo no se puede
decir que se aplicaran sobre una explosión masiva de datos en forma automática
o mecánica. Sin embargo, quizás los
mejores ejemplos en cuánto al uso de modelos predictivos también los podemos
encontrar a mediados del siglo XIX.

La «explosión de datos» transformó la forma de
operar de muchas organizaciones públicas y privadas. De repente, los Administradores pasaron a
tener información sobre operaciones de campos a miles de kilómetros de
distancia, casi en tiempo real. De
repente era posible cambiar la dirección de los barcos o trenes en ruta,
coordinar el envío de una carga usando varios medios de transporte, mover los
recursos humanos o materiales a uno u otros sitio rápidamente, vender en
mercados situados a muchas millas de distancia y muchas otras mejoras en los
negocios.

Esta nueva disponibilidad de información permitió cambiar
radicalmente el concepto de planificación que pasó a transformarse en una
gestión de recursos en tiempo real. La
disponibilidad de datos permitía analizarlos en mucho menos tiempo para tomar
decisiones y comunicarlas muy rápidamente.

En este artículo de McKinsey se describe muy bien una de
estas situaciones
(http://www.mckinsey.com/insights/organization/big_data_in_the_age_of_the_telegraph),
poniendo el ejemplo de una empresa ferroviaria en 1854.

Aunque el artículo lo cita como ejemplo de adaptación de la
estructura organizacional a una nueva situación (destacando, de paso, la
importancia del empowerment de los gerentes de campo), lo más interesante
resulta que, finalmente, la empresa encontró una forma de procesar y modelar la
información de campo, para la capacidad de proceso de que se disponía en esa
época. No fue más que establecer una
estructura jerárquica de «árbol», donde los datos se agregan por
regiones (o tramos de vía) y se van consolidando en ramas hasta el Board, que
dispone de toda la información resumida para tomar decisiones, en función de
las predicciones o cursos posibles de acción que surjan de los datos.

Esta es, en definitiva, la gran lección de la historia en
cuanto a la actual «explosión de datos» que llamamos Big Data. Nuestros actuales sistemas de almacenamiento,
procesamiento y modelos predictivos están siendo puestos a prueba por un salto
cualitativo, un cambio de escala, en la disponibilidad de datos.

Veremos pronto aparecer nuevas tecnologías informáticas que
permitan aprovechar este salto y deberemos estar prontos a adoptarlas
rápidamente (incluso corriendo riesgos) o podemos perder competitividad
rápidamente. Y, sobre todo, debemos estar dispuestos a ajustar, de forma
innovadora, los procesos internos de gestión, tratamiento y toma de decisiones,
a la nueva velocidad y posibilidades que brinda el Big Data. Así es, por lo
menos, la lección de la historia.

Bibliografía:

U.S.
History of Telegraph Industry
(http://eh.net/?s=history+of+the+u.s.+telegraph+industry)

Historia de las Telecomunicaciones en España
(http://perso.ya.com/lsancano/historiateleco1.html), Luis Sánchez Cano

Enviar comentario Cancelar la respuesta

Libro destacado

Últimos artículos

Categorías

Google Analytics