El término Big Data es relativamente nuevo entre los usuarios y cada vez está más en boca de todos, pero … ¿Realmente sabemos para qué sirve?
Según la Wikipedia “Big Data, macrodatos o datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos”.
Sabías que todos los autores coinciden en situar el origen del Big Data en Google, como no podría ser de otra forma, más concretamente en el estudio de Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung que publicaron en 2003, en el que explicaba su sistema de ficheros distribuidos Google File System (GFS). Si quieres saber más sobre su origen pincha aquí.
Desmembrando el término Big Data
Para conocer las características de la palabra Big Data podemos centrarnos en explicar las 5V para así, comprender mejor el término de Big Data.
Volumen
El volumen significa el tamaño y esta es una de las características más destacadas del Big Data y asociada a este concepto, ya que los datos crecen de manera vertiginosa. La generación de datos en un día es superior a la de hace veinte años, todos esos datos desestructurados que se guardan tienen un inmenso potencial. Por eso, para este gran volumen de información se requiere que se tenga una correcta orientación de las estrategias para poner filtrarlos y así ofrecer un ahorro de tiempo. Si no se hiciera esto podrían pasar muchos de esos datos a tener un ciclo de vida de su valor muy corto hasta convertirse en obsoletos de una manera muy rápida.
Velocidad
El tiempo siempre es importante y el cómo se afronta también. Todo el proceso de tratamiento de datos pide agilidad, pero también requieren una respuesta adecuada a su procesamiento y análisis para extraer el valor de negocio a toda la información que se tiene y que de esta manera no se pierda ninguna oportunidad. El tiempo de procesamiento de la información tiene que ser un factor fundamental para que el tratamiento aporte ventajas y marquen la diferencia.
¿Sabías que hay dos “Vs” adicionales? Estamos hablando de las 7 Vs del Big Data y entre ellas se encuentran la viabilidad y visualización de los datos
Variedad
Es fundamental hacer frente a la variedad de datos que aumenta el grado de complejidad, tanto en el almacenamiento de información como en el análisis. Por ello, hay que dar uniformidad a los datos que tienen origen heterogéneo porque una de las fortalezas del Big Data es que se puede conjugar y combinar todo tipo de información para alcanzar un todo homogéneo.
Este tipo de datos pueden provenir de textos, imágenes, web, tweets, sensor data, audio, video, click streams, ….. Y pueden ser estructurados, semi-estructurados o desestructurados.
Veracidad
Esta dimensión afecta mucho a la calidad de los datos, pues como se ha dicho antes, existe mucha variedad en toda la información que se recaba; por ello es conveniente encontrar las herramientas necesarias para comprobar la veracidad de la información recibida. Para ello, se tiene que ejercer una limpieza en los datos para asegurarse el mayor aprovechamiento de los mismos, ya que si los datos son buenos las decisiones tomadas en función de estos serán acertadas.
Valor
Esta dimensión, en cierta medida, afecta a todas las demás, el valor es el factor más importante del Big Data. Toda la información recogida tiene que servir para aportar valor a las empresas, los gobiernos o la sociedad porque si no, no da lugar a almacenar ni administrar. En definitiva, la clave está en cómo obtener la mejor información, el mejor valor y conocimiento para sacar la mayor rentabilidad.
¿Sabías que hay dos “Vs” adicionales? Estamos hablando de las 7 Vs del Big Data y entre ellas se encuentran la viabilidad y visualización de los datos.
Estas dos dimensiones se encontrarían situadas antes del valor de los datos, ya que sin la comprobación previa no se podría extraer el máximo valor posible de la gran cantidad de datos estudiados y trabajados.
Sabías que todos los autores coinciden en situar el origen del Big Data en Google
Se ha hablado de Big Data y de sus características, pero también hay que conocer las diferencias que existen entre Business Analytics y Business Intelligence, ya que llevan a error. Aunque el Big Data, el Business Analytics y el Business Intelligence permiten el análisis de datos con el objetivo de extraer la mayor información posible, existen diferencias entre ellos.
¿Quieres convertirte en un Data Scientist?
¿Cuál es el trabajo de un Data Scientist?
El Data Scientist está considerada como la profesión más atractiva del siglo XXI y su trabajo consiste en extraer conocimiento a partir de los datos para así poder responder a las preguntas que se formulan.