Europa, Pensamiento y Cultura

Cómo tener Big Data sin el Big Brother

La recopilación y el análisis de grandes volúmenes de datos ya no es solo obra de un Estado policial, sino la actividad continua de muchas empresas. Los llamados big data no sirven para todo, ni resuelven los males del mundo, pero permiten nuevos servicios muy útiles, desde el simple corrector ortográfico al control de las epidemias de gripe. También suponen nuevos peligros para la libertad y la intimidad de las personas.


 La Biblioteca del Congreso de Estados Unidos es la mayor del mundo. Contiene más de 120 millones de documentos, en papel y en otros soportes, acumulados a lo largo de 214 años de existencia. Sin embargo, todo eso suma menos de la milésima parte de la información que Google procesa en un día, que viene a ser unos 24 petabytes (24×1015).

Hoy tenemos big data (datos masivos) porque se mide y se cuenta casi todo: las transacciones comerciales internacionales, los viajeros en el transporte público, el consumo de electricidad a todas las horas del día, los datos meteorológicos, los casos de sida y otras enfermedades infecciosas, los precios industriales y de venta al por menor, nacimientos y defunciones…

También se registran nuestros clics cuando usamos Internet, lo que ponemos en las redes sociales, las compras que hacemos con tarjeta. El teléfono móvil deja constancia no solo de con quién hablamos o intercambiamos mensajes, sino de dónde estamos en cada momento.

Los Big Data recuerdan al Big Brother. Con razón empezamos a preocuparnos de lo mucho que se puede saber de nosotros, y la facilidad con que se puede utilizar. Pero no debemos caer tampoco en el alarmismo de pensar que estamos continuamente vigilados. Aunque los datos masivos plantean problemas para la privacidad, en primer lugar son instrumentos útiles que nos prestan servicios cotidianos, permiten hacer cosas nuevas, crean oportunidades de negocio, estimulan la actividad económica.

 

 

 

Autor: Viktor Mayer-Schönberger, Kenneth Cukier

 

 

 

Cálculo, no inteligencia
“Aunque nos hallamos aún en los albores de la era de los datos masivos, nos servimos de ellos a diario”, se puede leer en un libro reciente, Big data (1), que es una buena guía para introducirse en el tema. Los filtros contra el correo basura, los correctores ortográficos, la orientación por GPS se basan en datos masivos.

Ahora podemos usar cantidades ingentes de datos porque se ha vuelto fácil y barato recopilarlos y tratarlos. La rápida respuesta de los buscadores de Internet revela la gran capacidad de computación que tienen las máquinas actuales. Pero en el fenómeno big data lo primero y principal son los datos mismos: muchísimos, y cuantos más, mejor.

Precisamente la mayor cantidad de datos es lo que permite hacer cosas que no eran posibles con datos escasos. La traducción automática es una vieja aspiración que hasta hace poco ha dado resultados frustrantes. Los recientes avances no tienen que ver con la inteligencia artificial, sino con los datos masivos. Fueron ingenieros de IBM quienes a finales de los ochenta tuvieron la idea: en vez de afinar las reglas lingüísticas que usaba el ordenador, se centraron en aumentar su léxico, hasta introducir unos tres millones de pares de frases en inglés y francés. Pero la mejora no fue espectacular, y se abandonó el proyecto.

Hasta que llegó Google, que a base de leer páginas web en todos los idiomas y digitalizar más de 20 millones de libros distintos (ese era un objetivo no declarado de Google Libros), almacenó un billón de expresiones. Ahora el traductor de Google es el mejor que existe, aunque aún imperfecto y bastante deficiente para la mayoría de los idiomas. No es más listo; simplemente tiene tantas equivalencias, que puede calcular la frecuencia con que una palabra o frase se corresponde con otra mejor que todos los rivales, y cada vez mejor, pues sigue acumulando datos y perfeccionando sus cálculos.

“El uso de datos masivos –dicen los autores de Big data– no consiste en ‘enseñar’ a un ordenador a ‘pensar’ como un ser humano. Más bien consiste en aplicar las matemáticas a enormes cantidades de datos para poder inferir probabilidades”.

 

El uso de datos masivos no consiste en ‘enseñar’ a un ordenador a ‘pensar’ como un ser humano, sino en aplicar las matemáticas a enormes cantidades de datos para poder inferir probabilidades

 

Calidad a base de cantidad
Con big data, se logra calidad a base de cantidad: elevada probabilidad de acierto gracias al gran número de datos que procesar para hallar correlaciones. Esto implica que no se aspira a explicar los hechos, sino solo a predecirlos estadísticamente.

Cuando el informático Oren Etzioni fundó en 2003 la empresa Farecast, no pretendió entender las razones por las que los precios de los billetes de avión cambian continuamente, misterio demasiado alto para una mente finita. Se limitó a idear un sistema para procesar a gran velocidad las tarifas (hasta 200.000 millones de registros en un año) a fin de hallar pautas y correlaciones, y consiguió un modelo que predecía con elevado grado de acierto si en determinado momento el precio iba a subir o a bajar. Farecast no es infalible, pero por término medio ahorra unos cincuenta dólares por billete a sus usuarios, y a Etzioni le reportó 110 millones cuando Microsoft le compró el sistema, para integrarlo en su buscador Bing.

Como la cantidad es decisiva, el fenómeno de los datos masivos se apoya en la facilidad para obtenerlos de modo automático. Para averiguar las preferencias de los consumidores se puede hacer una encuesta, y en tal caso, es decisivo que la muestra esté bien hecha, o los resultados no serán representativos. Pero si procesamos millones de compras por Internet, la muestra se aproxima al universo estadístico y desaparece el peligro de sesgo en la selección de casos. Los datos se recopilan solos, sin necesidad de despachar un equipo de encuestadores, y en las condiciones reales: mientras la gente hace lo que hace todos los días.

 

El fenómeno de los datos masivos se apoya en la facilidad para obtenerlos de modo automático

 

Persiguiendo al virus
Así se puede explotar los datos cruzándolos, buscando implicaciones, para averiguar cosas que los datos no dicen directamente. Google recibe más de 3.000 millones de consultas a diario y las archiva todas. Eso es una mina de la que se puede extraer informaciones de casi cualquier asunto, como la propagación de la gripe.

Después de probar gran número de modelos, los analistas de Google encontraron los términos de búsqueda que con mayor probabilidad se relacionan con la aparición de la epidemia en una zona. En efecto, aunque Google no sabe si cierta persona que mete en el buscador unos términos relacionados con la epidemia está enferma, o ve que otros se han contagiado, o solo busca por curiosidad o por casualidad, puede estimar, con alto grado de acierto y antes de que puedan saberlo las autoridades sanitarias por sus propios medios, por dónde se mueve el virus. Así la prevención es más fácil y eficaz.

Pero no pensemos solo en novedades espectaculares. La recopilación continua de datos aumenta la eficiencia en muchos campos que no tienen nada de ciencia ficción. Un ejemplo es el de UPS, que instaló en sus vehículos de reparto localizadores por GPS, para registrar los itinerarios. A medida que fue acumulando datos, los ordenadores pudieron tratarlos para definir en cada caso la ruta más rápida. Gracias a eso, en 2011 UPS se ahorró en total 48 millones de kilómetros y 11,3 millones de litros de combustible.

Es importante advertir que el análisis de datos masivos funciona en el orden de los grandes números o de la media estadística, que para saber cómo se propaga la gripe o por dónde llevar los paquetes es suficiente.

Fascinación por los datos
Al considerar el cada vez mayor uso de datos masivos, vienen a la memoria los versos de T.S. Eliot en su obra teatral The Rock (1934): “¿Dónde está la sabiduría que se nos ha ido en conocimiento? / ¿Dónde está el conocimiento que se nos ha ido en información?”.

Los autores de Big data previenen contra la fascinación por los números. En ella cayó, dicen, Google, que elegía los nuevos empleados según un cálculo con datos de los C.V. de los aspirantes. En EE.UU., algunas comisiones penitenciarias deciden si dan o no la libertad condicional en función de un programa informático que, a base de big data, estima la probabilidad de que el reo reincida. Pero, señala el libro, “las predicciones basadas en datos masivos no están grabadas en piedra: son solo resultados probables, y eso significa que si queremos, podemos cambiarlos”.

La compañía FICO emplea datos masivos para calificar solicitudes de crédito. A fuerza de alimentar sus máquinas con datos, incluso algunos que aparentemente no tienen que ver con la solvencia de alguien –como con qué clase de personas se relaciona en las redes sociales–, logró predecir con notable acierto si uno sería capaz de devolver el préstamo o no. Su director general llegó a decir: “Sabemos lo que usted va a hacer mañana”. Exageraba. Pero ciertamente, los datos masivos abren posibilidades inquietantes.

______________________

(1) Viktor Mayer-Schönberger y Kenneth Cukier, Big Data. La revolución de los datos masivos, Turner, Madrid (2013), 278 págs., 22,90 (papel) / 9,49 (digital). T.o.: Big Data. A Revolution That Will Transform How We Live, Work, and Think. Traducción: Antonio Iriarte.

// OTROS TEMAS QUE TE PUEDEN INTERESAR

// EN PORTADA

// LO MÁS LEÍDO

// MÁS DEL AUTOR/A

Menú