Hoy en día las empresas necesitan almacenar y procesar una gran cantidad de información para desarrollar sus estrategias y alcanzar sus objetivos. Es lo que se conoce como Big Data. En este artículo vemos qué son y cómo funcionan los datos masivos, cuáles son sus ventajas y desventajas, sus principales aplicaciones y su relación con otras tecnologías y técnicas como la inteligencia artificial o el business intelligence.
¿Qué es el Big Data?
La definición de Big Data podría ser “aquellos conjuntos de datos cuyo tamaño, velocidad de crecimiento y variabilidad hacen que sean difíciles de analizar por medio de tecnologías convencionales“.
Es decir, para gestionar y procesar estos datos ya no sirve con herramientas como las estadísticas tradicionales o bases de datos relacionales, sino que se necesitan tecnologías analíticas capaces de trabajar con grandes volúmenes de información en el menor tiempo posible
Los macrodatos se refieren a tal cantidad de información que supera las capacidades de los métodos de almacenamiento y análisis tradicionales. No existe un consenso sobre el tamaño de la información a partir de cual se considera Big Data, aunque algunos expertos lo sitúan en 30-50 terabytes.
Para gestionar y procesar macrodatos ya no sirve con herramientas como las estadísticas tradicionales o bases de datos relacionales, sino que se necesitan tecnologías analíticas capaces de trabajar con grandes volúmenes de información.
En la actualidad, el Big Data es imprescindible para las empresas. Gracias al procesamiento casi inmediato de enormes volúmenes de datos las empresas pueden encontrar patrones que les ayuda a conocer mejor a los usuarios o a la competencia, con lo cual puede usar esa información en su propio beneficio.
Origen e historia
El Origen del Big Data se remonta a finales de los años 30 cuando Alan Turing, el padre de la computación, buscaba desarrollar una máquina que fuera capaz de desarrollar tareas de forma autónoma. Turing fue pionero en el análisis de grandes cantidades de información cuando en el 2ª Guerra Mundial lideró un equipo cuyo objetivo era descifrar Enigma, la potente herramienta de cifrado empleada por los nazis.
Entre los años 1950 y 1970 vieron la luz numerosos proyectos que supusieron la semilla de lo que hoy consideramos como Big Data. Por ejemplo, en 1956 Fritz Rudolf Guntsch creó la memoria virtual. En 1962, William C.Dersch presentó Shoebox, el primer sistema de reconocimiento por voz. Y en 1968 diversas organizaciones centraron sus esfuerzos en mejorar sus sistemas de computación con el objetivo de mejorar sus sistemas de inventario.
Turing fue pionero en el análisis de grandes cantidades de información cuando en el 2ª Guerra Mundial lideró un equipo cuyo objetivo era descifrar Enigma, la potente herramienta de cifrado empleada por los nazis.
Sin embargo, no fue hasta finales de los 80 cuando Erik Larsson hizo referencia al término ‘Big Data’ tal y como lo conocemos hoy en día. La definición del concepto coincidió con la creación de internet en el año 1989. La World Wide Web aportó el escenario necesario para la generación de datos masivos y la creación de los primeros sistemas de almacenamiento y gestión de la información en 1992.
Características del Big Data
La inteligencia de datos tiene una serie de características que se conocen como “las 5 V’s del Big Data“:
- Volumen: el Big Data se centra en el análisis de grandes cantidades de información.
- Variedad: los datos pueden ser de distintos tipos y proceder de muy diversas fuentes.
- Velocidad: para ser útiles, los datos han de ser procesados con gran rapidez y precisión.
- Veracidad: los datos almacenados han de ser verídicos y tener en cuenta su realidad cambiante.
- Valor: la información ha de ser útil y tener una aplicación práctica.
¿Cómo funciona el Big Data?
El funcionamiento de las herramientas de Big Data se basa en tres etapas: la recogida de la información, su gestión interna y su posterior procesamiento.
Integración
El Big Data almacena datos de muy diversas índole procedentes de diferentes fuentes. Por ello, es necesario contar con herramientas capaces de procesar tales cantidades de información y darle un formato adecuado para su posterior procesamiento.
Gestión
El almacenamiento de datos masivos requiere de soluciones que puedan dar cabida a volúmenes muy grandes de información. Hasta hace tiempo, las empresa optaban por herramientas on premise, aunque el almacenamiento en la nube gana cada vez más adeptos debido a su versatilidad, accesibilidad y el ahorro de costes en infraestructuras.
Análisis
La recogida y almacenamiento de información no serviría de nada si esos datos no se analizan para realizar descubrimientos o analizar patrones. Para el análisis de información se suelen emplear algoritmos avanzados o inteligencia artificial basada en el machine learning o deep learning. Gracias a ello se pueden crear modelos de datos aplicables al mundo real.
Tipos de datos que se almacenan
El Big Data puede trabajar con diferentes tipos de datos, aunque en la práctica es una tecnología cuyo objetivo es tratar los datos no estructurados, que es la información más difícil de procesar.
No estructurados
Son datos almacenados de forma cruda y sin ningún tipo de formato. Son los más difíciles de procesar ya que no tienen una estructura definida. Consisten en datos cualitativos, no cuantitativos. Algunos ejemplos de datos no estructurados son los párrafos de un texto, ls publicaciones en redes sociales, chats, imágenes por satélite, etc.
Estructurados
Los datos estructurados son aquellos que tienen un formato definido y que se pueden clasificar fácilmente en filas y columnas en las bases de datos relacionales. Estos datos son más sencillos de ordenar y procesar. Por ejemplo, una entrada en una base de datos sobre un cliente contendrá datos estructurados como su nombre, edad, o compras realizadas.
Semi-estructurados
Por su parte, los datos semiestructurados son una mezcla de los dos anteriores. Poseen algunas características definidas, pero también cuentan con cierta inconsistencia o variabilidad. Por ejemplo, una imagen no tiene una estructura definida, pero al sacar una fotografía con una cámara digital se pueden acceder a ciertos datos estructurados sobre dicha imagen, como el modelo de la cámara, la resolución, o la echa y la hora en que fue tomada.
¿Cómo se obtienen los datos masivos?
En la actualidad se generan toneladas de información que puede ser procesada mediante el Big Data. Estos datos pueden provenir de fuentes muy diferentes.
Generados por las personas
Las personas pueden generar información valiosa para las empresas a través de su comportamiento, sobre todo en el entorno online. Al navegar por internet o utilizar aplicaciones, los usuarios dejan un rastro que se denomina huella digital. Por ejemplo, e enviar correos electrónicos, utilizar WhatsApp, compartir publicaciones en redes sociales, etc. Sin embargo, también hay datos que las personas pueden generar en el entorno offline, por ejemplo, al responder a encuestas telefónicas o a pie de calle.
Transacciones de información
La información que forma parte del Big Data también se puede obtener a partir de las transacciones de información que realizan los usuarios. Las llamadas telefónicas, acceso a WiFi públicas o las conexiones a internet son solo algunas de las fuentes que proveen de información a las empresas.
Por ejemplo, a la hora de realizar un pago con una tarjeta bancaria se está realizando una transacción de información en la cual el usuario informa sobre su número de tarjeta, el producto o servicio adquirido, la fecha, hora y lugar de la compra, etc.
Las llamadas telefónicas, acceso a WiFi públicas o las conexiones a internet son solo algunas de las fuentes que proveen de información a las empresas.
Mercadotecnia online
Una de las principales finalidades del Big Data es utilizar la información para objetivos de mercadotecnia. Las empresas utilizan numerosas herramientas de seguimiento que les permiten usar la información para elaborar sus estrategias o campañas comerciales. Por ejemplo, en la actualidad es frecuente recabar las cookies del navegador para conocer el comportamiento del usuario en internet, e incluso existen herramientas que ofrecen mapas de calor para saber por dónde se ha movido el usuario dentro de una págin web.
Comunicación M2M (máquina a máquina)
Son datos obtenidos en la comunicación entre dispositivos como sensores, que capturan la información y la envían a software de almacenamiento y análisis. Por ejemplo, sensores de luz, de temperatura o de sonido. La comunicación M2M se ha visto favorecida con la aparición de redes de comunicación inalámbricas como el Wi-Fi Bluetooth o identificación por radiofrecuencia, lo que ha dado lugar a la aparición del llamado Internet de las Cosas (IoT).
Biometría
En este caso se trata de datos generados por aparatos destinados al reconocimiento de personas basados en características físicas o conductuales intrínsecas del individuo. Normalmente se emplean en servicios de seguridad, salud o defensa. Como ejemplo tenemos los sistemas de reconocimiento facial, los escáneres de retina, lectores de huellas digitales, etc.
¿Cómo se hace un análisis de Big Data?
El análisis de grandes datos se puede realizar en base a diferentes metodologías, entre las que se encuentran la asociación, minería de datos, agrupación o análisis de textos.
Asociación
La asociación permite establecer relaciones entre diferentes variables. En base a dicha relación se establecen patrones de causalidad con el objetivo de predecir el comportamiento de otras variables. Por ejemplo, es el sistema empleado en los estrategias de venta cruzada de empresas como Amazon.
Minería de datos
La minería de datos busca encontrar patrones en grandes volúmenes de datos y, de esta manera, predecir comportamientos. Para ello combina métodos estadísticos, inteligencia artificial y almacenamiento en bases de datos.
Agrupación
La agrupación de datos o clustering es una variante de la minería de datos que busca analizar grandes volúmenes de información para encontrar similitudes que permitan dividir dicha información en grupos más pequeños. Se suele emplear para crear una estructura previa de los datos y descubrir las cualidades que los definen.
Análisis de texto
El análisis de texto o text analytics permite extraer datos valiosos de la información presente de formato de texto. Por ejemplo, correos electrónicos, párrafos de contenidos, búsquedas web, etc. Para ello, se suelen utilizar herramientas que utilizan un tipo de inteligencia artificial denominada language processing o procesamiento del lenguaje.
Soluciones para analizar macrodatos
Para que el Big Data sea realmente efectivo, los datos se han de analizar con el objetivo de que aporten valor. Es decir, que puedan tener alguna aplicación práctica. Esto se puede conseguir gracias a diversas técnicas y herramientas.
Herramientas Big Data
Las herramientas Big Data están especialmente diseñadas para procesar los datos almacenados y encontrar patrones de comportamiento en base a algoritmos. Entre los programas más utilizados están las bases de datos NoSQL, Handoop, MapReduce o Cassandra.
Pruebas A/B
También llamados split test, los test A/B se emplean para realizar experimentos con diferentes variables, para comprobar cual de ellas obtiene mejores resultados. Son muy utilizadas por las agencias de marketing para prever el comportamiento de los usuarios.
Por ejemplo, imagina que tienes dos Landing Pages, una con fondo rojo y otra con fondo azul. La prueba A/B consistiría en enviar la misma cantidad de cada tipo de landing a los usuarios para saber cuál tiene más éxito. Y lo mismo se podría hacer variando la tipografía, disposición de los elementos, Call to action, etc.
Los test A/B se emplean para realizar experimentos con diferentes variables, para comprobar cual de ellas obtiene mejores resultados.
Aprendizaje automático
El aprendizaje automático es una de las técnicas más empleadas en el Big Data. Las herramientas de inteligencia artificial dotadas con machine learning no solo permite analizar los datos, sino que son capaces de aprender en base a los patrones creados previamente.
Procesamiento del lenguaje natural
Otra variante de la IA muy utilizada en Big Data es el procesamiento del lenguaje natural o language processing. Cada vez existen soluciones más efectivas a la hora de comprender el lenguaje humano y su complejidad. Estas herramientas se pueden usar tanto para la comprensión de textos escritos, como para el lenguaje oral. Un claro ejemplo son los asistentes virtuales.
Inteligencia de negocios
Las herramientas de business intelligence sirven para transformar los datos masivos en información útil para la empresa. Gracias al análisis de los datos presentes en una organización se puede obtener el conocimiento que permite poner en marcha estrategias más efectivas.
Computación en la nube
Otro de los factores que ha favorecido los análisis de Big Data son los servicios de computación y almacenamiento en la nube. Ofrece numerosas ventajas respecto a los sistemas locales, como mayor capacidad de almacenamiento, acceso desde cualquier dispositivo con internet o un menor gasto en infraestructuras y equipos.
Bases de datos
Hasta hace relativamente poco tiempo, la información se almacenaba en bases de datos relacionales o SQL. Estas ofrecían un lenguaje estandarizado y permitían gestionar datos estructurados. Sin embargo, con el aumento de la cantidad y variedad de la información se requieren otros tipos de database que permitan procesar gran cantidad de datos no estructurados. Aquí es donde entran las bases de datos NoSQL o no relacionales.
Gráficos y tablas
Una de las funciones que más se agradece en una herramienta de Big Data es su capacidad para mostrar la información en gráficos o tablas. Es decir, aparte de analizar la información, se requiere que esta sea presentada de una forma más visual y comprensible.
Retos para la calidad de la información en Big Data
El Big Data es una tecnología relativamente nueva que se enfrenta todavía a numerosos desafíos. Veamos algunos de los retos más importantes en el almacenamiento, gestión y análisis de esta información.
Muchos tipos de datos
Por un lado, el Big Data almacena datos de muy diversas procedencia. Por ejemplo, información proveniente de internet, teléfonos móviles, dispositivos IoT, recopilados por empresas, etc.
Por otro, existen diferentes tipos de datos, como los estructurados, semiestructurados (hojas de cálculo, software, informes, etc) y no estructurados (vídeos, audios, documentos, etc).
El Big Data almacena datos de muy diversas procedencia. Por ejemplo, información provenientes de internet, teléfonos móviles, dispositivos IoT, recopilados por empresas, etc.
Gran Volumen de datos
Otro de los retos a los que se enfrenta el Big Data es hacer frente a grandes volúmenes de información. El tamaño de las bases de datos dificulta realizar procesamientos de calidad en un tiempo razonable, sobre todo a la hora de transformar datos no estructurados en estructurados.
El objetivo de las soluciones Big Data es conseguir una metodología efectiva a la hora de obtener, integrar y filtrar datos de alta calidad de manera rápida y efectiva.
El tamaño de las bases de datos dificulta realizar procesamientos de calidad en un tiempo razonable, sobre todo a la hora de transformar datos no estructurados en estructurados.
Volatilidad
Otro de los desafíos del Big Data es la volatilidad de la información. Muchos de los datos almacenados cambian rápidamente y su período de validez es muy corto. Por ello, las soluciones Big Data necesitan una gran capacidad de procesamiento que les permita actualizar los datos o eliminar aquella información que ya no es válida o está obsoleta. Esto es fundamental para la calidad de los análisis y evitar errores en la toma de decisiones.
Estándares poco definidos
La Organización Internacional de Normalización publicó en el año 2011 las normas ISO 8000 sobre calidad de datos. Sin embargo, esta normativa es todavía muy joven y necesita madurar y perfeccionarse. Además, los estudios e investigaciones sobre calidad de datos comenzaron hace poco y todavía no han arrojado resultados valorables.
Ventajas de Desventajas del Big Data
El uso del Big Data es cada vez más frecuente, sobre todo en grandes organizaciones. Sin embargo, de su uso no se derivan solo beneficios, sino hay que tener en cuenta otros aspectos potencialmente negativos.
Ventajas
Las principales ventajas del Big Data son las siguientes:
- Permite tomar decisiones con gran rapidez: esto es fundamental para el negocio, sobre todo cuando se trata de procesar grandes cantidades de información.
- Facilita el desarrollo de planes de marketing: la información que se obtiene a través del Big Data permite conocer y predecir el comportamiento de los usuarios. Imprescindible a la hora de elaborar estrategias o campañas de marketing que ofrezcan al consumidor productos o servicios personalizados y adaptados a sus gustos o necesidades.
- Mejora la eficiencia: La gran cantidad de información y la velocidad en su procesamiento redundan en una mayor efectividad a la hora de poner en marcha estrategias empresariales. Por ejemplo, se pueden acortar los plazos a la hora de tomar decisiones relevantes para el negocio.
- Reduce los costes: el aumento de la eficacia en los procesos internos de la empresa también se traduce en una reducción de los costes.
- Aumenta la vinculación de los clientes: conocer a los clientes es imprescindible para conseguir su identificación con la marca y establecer con ellos una relación a largo plazo.
- Analiza las variables del entorno: el Big Data es capaz de tener en cuenta aquellas variables del entorno que pueden afectar al proceso principal.
- Favorece la retroalimentación: las herramientas de Big Data permiten obtener feedback en tiempo real sobre las acciones que más éxitos han podido tener, así como corregir aquellas estrategias con peores resultados.
Desventajas
Por su parte, las principales desventajas del Big Data son:
- Exceso de datos: es posible que se almacene y procese demasiada información. Si no se cuenta con herramientas de filtrado de datos, mucha de la información presente se traducirá en ruido, es decir, no será relevante.
- Riesgos de ciberseguridad: el uso del Big Data ha provocado un aumento en los ciberataques destinados al robo de datos. Por eso, uno de los mayores retos de la inteligencia de datos es el desarrollo de soluciones que protejan la información frente a las amenazas de los ciberdelincuentes.
- Políticas de protección de datos: con la entrada del RGPD y la LOPDGDD en España, las empresas han de cumplir con obligaciones mucho más estrictas a la hora de realizar el tratamiento de datos de los usuarios. De no cumplir las exigencias se enfrentan a duras sanciones (hasta 20 millones de euros o el 4% de su facturación en el último año).
- Falta de cualificación: al ser una tecnología joven, todavía existe un déficit de profesionales que sepan trabajar con esta información.
- Tecnofobia: hay usuarios que desconocen lo que es el Big Data y se encuentran anclados en el pasado. Muchos desconfían de estas nuevas tecnologías porque piensan que vulnera su privacidad.
Sectores en los que se usa el Big Data
Las aplicaciones del Big Data ya llegan a diferentes sectores. En muchos casos el usuario ni siquiera se da cuenta de que se están utilizando técnicas para el análisis masivos de datos. Pero se puede decir que ya es una tecnología casi omnipresente.
Marketing
El Big Data en marketing se emplea con el objetivo de elaborar perfiles de usuarios, segmentar clientes y estudiar sus comportamientos. La finalidad es ofrecer al usuario campañas, productos y servicios personalizados y adaptados a sus gustos y necesidades. Puedes ver más información en nuestro artículo sobre Big Data Marketing.
Business intelligence
Las organizaciones buscan utilizar en su beneficio los datos que almacenan. Gracias a la realización de análisis exhaustivos, los datos en bruto se pueden convertir en información de gran valor para la empresa. Esta información se empleará con el objetivo de definir líneas de actuación y desarrollar estrategias de negocio.
Salud
El sector de la sanidad y la salud también se ha visto beneficiado por la aparición del Big Data. Gracias a las herramientas de almacenamiento y análisis de macrodatos se ha agilizado la gestión de bases de datos de pacientes. Por ejemplo, se facilita la conservación de historiales médicos, la realización de diagnósticos, la aplicación de tratamientos o el intercambio de información entre diferentes servicios de salud.
Deportes
El Big Data también es muy utilizado en el ámbito deportivo, especialmente en deportes como el fútbol, baloncesto, tenis o competiciones de motor. Por ejemplo, los clubes manejan enormes bases de datos de jugadores que consultan antes de realizar un fichaje. En estas bases de datos figura información relacionada con la edad del jugador, sus estadísticas, su historial de lesiones, etc.
Finanzas
El análisis de las variables microeconómicas y macroeconómicas resulta fundamental para la estrategia de cualquier negocio. Hasta hace poco, el procesamiento de estos datos se hacía muy complejo, pero gracias al Big Data se puede analizar la información económica y financiera con mucha mayor precisión.
Recursos Humanos
Los equipos de RRHH utilizan el Big Data para mejorar los procesos internos de la empresa. Gracias a ello se puede optimizar la selección y evaluación de los candidatos o medir de forma más efectiva el rendimiento de los trabajadores de la empresa, entre muchas otras ventajas.
Educación
La aplicación del Big Data en el sector educativo ofrece la posibilidad de implementar una educación personalizada para cada niño, obtener feedback en tiempo real sobre los resultados académicos de los alumnos para actuar en consecuencia, y favorecer la difusión del conocimiento.
Turismo
El uso del Big Data en turismo permite a las empresas del sector obtener datos de relevancia sobre el comportamiento y preferencias de los visitantes. En base a esta información pueden ofrecer servicios personalizados adaptados a cada tipo de turista. Por ejemplo, con el Big Data se pueden obtener datos relativos al número de visitas, su procedencia, el tiempo de estancia, los desplazamientos entre ciudades, el gasto realizado en alojamiento, etc.
Política
Los políticos nunca han sido demasiado amigos de las nuevas tecnologías, pero en la era digital todos los líderes se han rodeado de equipos capaces de analizar los datos de los ciudadanos. En base a esta información se ponen en marcha iniciativas, se desarrollan estrategias en campañas electorales o se ponen en marcha planes de política o espionaje internacional. Un claro ejemplo del uso del Big Data en política ha sido la administración Trump, pero en realidad es algo generalizado en la mayoría de países desarrollados.
Big Data: Ejemplos
Existen numerosos ejemplos de empresas que usan el Big Data para alcanzar sus objetivos comerciales. A continuación vemos algunas de las más destacadas.
Procter & Gamble
Procter & Gamble utiliza algoritmos que estudian la relación entre las características de los productos y su éxito entre los clientes. Además, a la hora de lanzar nuevos productos al mercado analizan la información que obtienen de grupos de interés, redes sociales, pruebas de mercado o avances de salida en tiendas físicas y online.
Netflix
Una de las claves del éxito de Netflix es el estudio del comportamiento de los usuarios para saber qué productos audiovisuales ofrecer. Por ejemplo, hace unos años sus herramientas de Big Data detectaron que el público estadounidense estaba interesado en series de ficción que combinasen poder, política, drama y erotismo. También que uno de sus actores preferidos era Kevin Spacey. De este estudio nació la producción de la serie ‘House of Cards’.
Nike
Nike ha puesto en el mercado diversos dispositivos electrónicos como smartwatches, pulseras inteligentes, pulsómetros, etc. Estos dispositivos se conectan con sus zapatillas para ofrecer al usuario información relacionada con su actividad física. A su vez, Nike también obtiene datos del comportamiento de los usuarios. En base a estos datos la compañía propone retos y objetivos a sus clientes que aluden a su capacidad de superación y, con ello, contribuyen a crear un vínculo usuario-marca, más allá de la venta de equipo deportivo.
Amazon
Amazon fue una de las empresas pioneras en el uso del Big Data en el comercio electrónico. El gigante estadounidense basa gran parte de su éxito en conocer de antemano el probable comportamiento de sus clientes. Seguro que alguna vez has entrado a Amazon y se te han mostrado artículos que te podrían interesar. La oferta de estos productos se crea en base al análisis de tu comportamiento previo en la web, o del comportamiento de otros clientes que han comprado productos similares a los que están buscando.
Con esto llegamos al final de nuestro recorrido sobre el Big Data. A diferencia de otras tecnologías de futuro como la inteligencia artificial o la realidad aumentada, la implantación del Big Data es enorme, sobre todo en empresas y organizaciones de mediana y gran envergadura.
Como se suele decir, la información es poder. Pero el Big Data va un paso más allá: la información es poder, siempre y cuando se puedan analizar más datos que la competencia y de forma más efectiva.