I.

Introducción al big data

Como hemos visto a lo largo del curso, los datos desempeñan un papel fundamental en nuestra sociedad y nos permiten comprender el mundo que nos rodea. En las últimas décadas, el auge de Internet y de los servicios de la Web 2.0, así como de los dispositivos móviles y los sensores, han hecho que se creen inmensos conjuntos de datos.

Este «torrente creciente» de datos generados, sumado a la disponibilidad de tecnologías informáticas a la carta (como la computación en la nube), ha llevado a la aparición del concepto de big data, que hace referencia a los datos que superan la capacidad de procesamiento de los sistemas de bases de datos convencionales.

Definiciones de big data

El big data suele definirse como «grandes cantidades de datos producidos muy rápidamente por un elevado número de fuentes diversas».

Las definiciones de big data son subjetivas y no hay un consenso en cuanto al tamaño que debe tener un conjunto de datos para ser considerado big data. No hay ninguna referencia al número de bytes, que es como solemos medir los datos (por ejemplo, en gigabytes). La tecnología avanza con rapidez y cada vez hay más dispositivos conectados a Internet, por lo que la cantidad de datos que se crean también está aumentando.

El tamaño de los conjuntos de datos que se consideran big data también podría incrementarse con el tiempo. Además, lo que es «grande» para una organización, un sector o un país puede ser pequeño para otro: por ejemplo, para Apple en comparación con una pequeña empresa o para Portugal comparado con China.

Ejemplo

Creamos enormes rastros de datos

En el 2020 hemos vivido uno de los retos más globales y de mayor envergadura. Ya estábamos «conectados», pero de la noche a la mañana, todos los aspectos de nuestra vida (ejercicio, trabajo, estudios, etc.) se trasladaron a Internet. Se cerraron tiendas, gimnasios, oficinas, restaurantes y cines. La única manera de trabajar —para los que no estaban en primera línea—, o de estudiar, comunicarse, comprar muebles, socializar o ver una película, era a través de la red. Ni siquiera podíamos visitar y abrazar a nuestras familias.

Esta situación ha hecho que el mundo se digitalice aún más. Por ejemplo, en un solo día podemos hacer todo esto:

  • Comunicarnos mediante mensajes de WhatsApp.

  • Navegar o buscar algo en línea.

  • Comprar alimentos, servicios o dispositivos por Internet.

  • Compartir una bonita foto de nuestra mascota o un documento de trabajo.

  • Ver una serie en Netflix o Amazon Prime Video antes de acostarnos.

  • Escuchar música de SoundCloud, Spotify o YouTube.

  • Comprar y leer un libro en un lector electrónico.

Ahora, multiplica esto por los millones de usuarios que utilizan su móvil u ordenador (o ambos) cada día.

Iconos de datos saliendo de huellas marcadas en el suelo
Iconos de datos saliendo de huellas marcadas en el suelo

Tu huella digital

Casi todas las acciones que realizamos hoy en día dejan un rastro digital. Generamos datos cada vez que llevamos encima nuestro smartphone equipado con sensores, cuando buscamos algo en Internet, cuando nos comunicamos con nuestra familia o amigos mediante redes sociales o aplicaciones de chat y cuando compramos. Dejamos huellas digitales con cada acción digital y, a veces, lo hacemos incluso sin darnos cuenta o sin querer.

¿Te has preguntado cómo saben empresas como Amazon, Spotify o Netflix lo que «también podría gustarte»? Los motores de recomendación son una aplicación habitual del big data. Amazon, Netflix y Spotify utilizan algoritmos basados en big data para ofrecerte recomendaciones concretas en función de tus preferencias y de lo que has hecho a lo largo del tiempo. Siri y Alexa se basan en big data para responder a las diferentes preguntas que pueden hacerles los usuarios. Y, ahora, Google es capaz de ofrecer recomendaciones basadas en big data en los propios dispositivos de los usuarios. Pero ¿cómo influyen esas recomendaciones en lo que haces con tu tiempo, en los productos que compras o en las opiniones que lees? ¿Por qué estas grandes empresas invierten tanto dinero en ello? ¿Solo te conocen o también influyen en ti? Aunque los sistemas de recomendación representan hasta un tercio del tráfico de muchos sitios web populares, no sabemos el poder que ejercen sobre nuestras decisiones.

Ejemplo

¿Qué sabe tu teléfono sobre ti?

¿Te has preguntado alguna vez qué sabe tu smartphone sobre ti, sobre tus acciones, tus sentimientos, tu estado de ánimo o tu salud? Los smartphones poseen numerosos sensores muy potentes que generan continuamente datos sobre ti y te facilitan la vida. ¿Dónde está el límite entre la privacidad o la protección de tus datos y la comodidad? Es una cuestión sobre la que debes reflexionar y tomar decisiones.

El big data combina datos estructurados, semiestructurados y no estructurados de los que se puede extraer información y que pueden utilizarse para el aprendizaje automático, el análisis predictivo y otros fines relacionados con los análisis avanzados. Los datos estructurados son los que pueden organizarse en filas y columnas, o bases de datos relacionales; los datos no estructurados son los que no están organizados de forma predefinida, como tuits, entradas de blog, imágenes, números e incluso datos de vídeo.

Las empresas y organizaciones utilizan sistemas específicos para almacenar y procesar big data, lo que se denomina arquitectura de gestión de datos.

Características del big data

La caracterización más aceptada del big data se basa en las tres uves acuñadas por Doug Laney en el año 2001: el gran volumen de datos que se generan, la gran variedad de tipos de datos que se almacenan y procesan en los sistemas de big data y la velocidad a la que se crean, recogen y procesan los datos. También se han añadido las palabras veracidad, valor y variabilidad para complementar la descripción del big data.

  • Por volumen se entiende la cantidad de datos que se generan y recopilan en cada momento en este mundo tan digitalizado, medidos en bytes (terabytes, exabytes, zettabytes). Como te puedes imaginar, estos enormes volúmenes de datos plantean muchas dificultades, por ejemplo, a la hora de almacenarlos, distribuirlos y procesarlos. Las principales dificultades son el coste, la escalabilidad (posibilidad de ampliación) y el rendimiento. El volumen también es consecuencia del aumento de las fuentes de datos (hay más personas conectadas), de la resolución (por ejemplo, la de los sensores) y de la infraestructura ampliable.

Note

Cada día se crean 2,5 trillones de bytes de datos, lo que equivale a 10 millones de discos Blu-ray diarios. Todos los días se comparten unos 95 millones de fotos y vídeos en Instagram, se envían 306 400 millones de correos electrónicos y se publican 5 millones de tuits. Hay 4570 millones de usuarios activos de Internet en todo el mundo. Todos nuestros dispositivos generan, recogen y almacenan datos.

  • La velocidad hace referencia a la rapidez con la que se generan datos de forma ininterrumpida, se transmiten en tiempo real o prácticamente al instante y se procesan utilizando tecnologías locales y de nube.

  • La variedad es la diversidad de los datos. Los datos están disponibles en diferentes formatos: por ejemplo, texto, imágenes, tuits o datos geoespaciales. Además, proceden de diversas fuentes, como las máquinas, las personas y los procesos organizativos (tanto internos como externos). Los factores que promueven la variedad son las tecnologías móviles, las redes sociales, las tecnologías wearable, las geotecnologías y los vídeos, entre muchos otros. Los atributos incluyen el grado de estructura y la complejidad.

  • La veracidad hace referencia a la medida en que algo coincide con los hechos reales y su precisión. La veracidad también tiene que ver con la calidad y el origen de los datos. Algunos de sus atributos son la coherencia, la exhaustividad, la integridad y la ambigüedad. Entre los factores que promueven la veracidad están el coste y la necesidad de trazabilidad. Considerando el gran volumen, la velocidad y la variedad de los datos que se crean, debemos preguntarnos si la información que recibimos es real o es falsa.

Están surgiendo otras uves, pero solo vamos a mencionar una más: el valor. Se refiere a nuestra capacidad y necesidad de convertir los datos en valor, entendido no solo como beneficio económico. El valor puede estar relacionado con la seguridad y la protección (como la información sísmica), la medicina (hay wearables que pueden identificar los síntomas de un infarto) o los beneficios sociales, como la satisfacción personal o la de los empleados. El big data alberga un gran valor intrínseco que puede adoptar muchas formas.

Sin embargo, las uves no solo caracterizan al big data, sino también a los retos que presenta: enormes cantidades de datos, disponibles en diferentes formatos, en gran parte sin estructurar, de calidad variable, que requieren un procesamiento rápido para poder tomar las decisiones oportunas.

¿Por qué y cómo se analiza el big data?

Se considera que el 80 % de los datos no están estructurados. ¿Cómo podemos extraer información fiable y precisa? Los datos se deben filtrar, categorizar, analizar y visualizar.

El análisis de big data es un proceso tecnológico que consiste en examinar big data (conjuntos de datos de gran volumen, a alta velocidad o muy variados) para descubrir información como patrones ocultos, correlaciones, tendencias de mercado o preferencias de los clientes. Esto ayuda a empresas, organizaciones, Gobiernos o instituciones a analizar los conjuntos de datos y obtener información para tomar decisiones fundamentadas, más acertadas y más rápidas.

Con esto, se abordan tres cuestiones importantes: el qué, el por qué y el cómo. Ya hemos visto el qué, así que ahora nos centraremos en el por qué y el cómo.

El por qué y el cómo del big data

El big data se basa en el principio de que «cuanto más se sepa sobre algo, más fiable será la obtención de nuevos conocimientos, así como las predicciones sobre lo que ocurrirá en el futuro».

El ciclo típico de la gestión de datos incluye la ingesta, el almacenamiento, el procesamiento, el análisis, la visualización, el intercambio y las aplicaciones. La nube y el big data van de la mano, ya que el análisis de datos se suele realizar en servicios de nube pública. Empresas como Amazon, Microsoft y Google ofrecen servicios de nube que permiten implementar rápidamente inmensas cantidades de potencia de computación, de modo que las empresas pueden acceder a los sistemas informáticos más avanzados cuando los necesitan, sin tener que adquirir la infraestructura necesaria, y ejecutar todo el ciclo de gestión de datos en la nube. En la sección anterior hemos hablado de SaaS, IaaS y PaaS. La computación en la nube ofrece a los investigadores de big data la oportunidad de acceder a todo como servicio (XaaS).

Preprocesamiento

Los datos en bruto pueden contener errores o valores de baja calidad (pueden faltar algunos o puede haber valores atípicos, ruido e incoherencias) y a veces es necesario preprocesarlos (limpiar, fusionar, transformar y reducir los datos) para eliminar el ruido, corregir los datos o disminuir su tamaño. Por ejemplo, para analizar el comportamiento relacionado con el uso del agua, es necesario preprocesar los datos para convertir los datos de los contadores de agua inteligentes en patrones de consumo de agua que resulten útiles, ya que los sensores del IoT pueden no registrar todos los datos.

Gráficos con diversos patrones de datos
Gráficos con diversos patrones de datos

Identificación de patrones o conclusiones

Para que funcione el proceso automatizado que hay detrás del big data, hay que crear modelos a partir de los datos recogidos y realizar simulaciones, modificando el valor de los datos para observar cómo repercuten esos cambios en los resultados. La tecnología de análisis avanzado de la que disponemos hoy en día puede llevar a cabo millones de simulaciones, ajustando las variables para tratar de identificar patrones o extraer conclusiones (encontrar correlaciones entre variables) que puedan proporcionar una ventaja competitiva o resolver un problema. El análisis del comportamiento se centra en las acciones de las personas y el análisis predictivo busca patrones que puedan ayudar a anticipar tendencias.

Ejemplo

Por ejemplo, veamos la inteligencia empresarial (BI, del inglés business intelligence). La BI es el proceso de analizar datos con el objetivo de proporcionar información procesable que ayude a los ejecutivos, gerentes y trabajadores a tomar decisiones empresariales basadas en esa información. La inteligencia empresarial se centra en las operaciones y el rendimiento empresariales. Los datos necesarios para la BI son diferentes, más complejos. Los sistemas de big data disponen de los datos brutos, que se deben filtrar y seleccionar antes de cargarlos y analizarlos para extraer conclusiones de BI. Las herramientas también son otras, ya que el objetivo y los datos son distintos.

Minería de datos

El proceso de descubrir patrones a partir de grandes conjuntos de datos mediante análisis estadísticos se denomina minería de datos. El análisis estadístico es un método matemático que se suele emplear para extraer y descubrir información. Los métodos estadísticos son fórmulas matemáticas, modelos y técnicas que se aplican para encontrar patrones y reglas a partir de datos brutos. Algunos de los métodos más utilizados son el análisis de regresión, el análisis espacio-temporal, las reglas de asociación, la clasificación, la agrupación y el aprendizaje profundo.

Ejemplo

Un ejemplo de uso práctico del big data se observa en los datos de los teléfonos móviles. Los datos de uso de los sensores del móvil se pueden utilizar para ofrecer seguros basados en el uso (UBI, de usage-based insurance). Sparkbit ofrece un seguro para conductores personalizado en función de cómo se comportan. Su sistema utiliza la información de los smartphones para evaluar su técnica y su conducta al volante. En marzo del 2018, esta empresa había acumulado ya 330 millones de kilómetros de rutas realizadas por los usuarios de su sistema. Suma otros 30 000 usuarios activos cada mes, cada uno de los cuales registra una media de 70 nuevas rutas. A partir de cada trayecto se crea una secuencia de puntos procedentes del GPS (coordenadas geográficas, precisión de la posición estimada, velocidad del vehículo o dirección en la que se mueve). El sistema almacena los datos, los procesa y analiza la conducta del conductor (por ejemplo, si conduce de forma peligrosa). Y, en función de estos datos, asigna una puntuación a la ruta y al conductor.

Para sacar conclusiones de los datos disponibles, se suelen utilizar métodos de análisis vanguardistas, basados en la inteligencia artificial y el aprendizaje automático. Con este último, los ordenadores pueden aprender a identificar lo que representan diversos datos o combinaciones de datos y reconocer patrones de forma mucho más rápida y eficiente que los humanos.

Next section
II. Aplicaciones e implicaciones del big data