El Data Scientist está considerado como la profesión más atractiva del siglo XXI y su trabajo consiste en extraer conocimiento a partir de los datos para así poder responder a las preguntas que se formulan.
“Comprender la importancia y dimensión que ha tomado el análisis de grandes volúmenes de datos (Big Data) en las empresas e incluso en la sociedad actual es un primer paso para situarnos en un mundo complejo y apasionante al mismo tiempo”
El trabajo de un Data Scientist
Se está generando datos continuamente, navegando por Internet, moviéndonos por la ciudad, realizando compras con tarjeta, utilizando servicios públicos… La cantidad de datos, por tanto, no para de crecer. Todo esto conduce a que compañías de diferentes tipos y sectores estén demandando una gran cantidad de profesionales con perfiles profesionales cualificados que sepan manejar, analizar e interpretar los datos que almacenan de la manera óptima posible para servir los objetivos de negocio.
Y por eso, es de vital importancia comprender de qué forma las empresas se van adaptando a este nuevo paradigma y las características de los Data Scientist y actores principales de esta revolución de los datos.
El Data Scientist tiene que comprender el lenguaje R Programming y SQL, que son las dos herramientas más usadas por los expertos en Big Data
Por otra parte, para llegar a obtener el máximo rendimiento de los datos es necesario trabajar con ellos de manera cuidadosa, siguiendo una metodología clara y ajustada a este tipo de trabajo que guíe en todo momento al profesional de forma ordenada y que permita reutilizar su propio trabajo o que otros miembros del equipo sean capaces de continuar con el mismo de manera sencilla y eficiente. También es imprescindible comprender las metodologías más utilizadas tanto para el desarrollo software (Agile, Scrum, Lean Startup+Canvas) como para la construcción de proyectos con datos (KDD, SEMMA, CRISP-DM).
Almacenamiento y Adquisición de Datos
Adentrándonos en el mundo del almacenamiento de la información, conociendo la evolución de las diferentes tecnologías hasta llegar al Business Intelligence, es el paso previo al ecosistema Big Data. Un Data Scientist tiene que adquirir los conocimientos necesarios para almacenar y explotar la información de manera estructurada en base de datos relacionales.
Para dar el salto al Big Data es necesario conocer las diferentes formas de almacenamiento de fuentes de datos más tradicionales, así como las técnicas para adquisición de nuevas fuentes de datos on-line (APIs, Web…).
Análisis de Datos y Aprendizaje Automático con R y SQL
El Data Scientist tiene que comprender el lenguaje R Programming y SQL, que son las dos herramientas más usadas por los expertos en Big Data, ya que permiten resolver problemas de Análisis de datos a pequeña o mediana escala.
Además, manejar la sintaxis SQL es indispensable para la preparación y análisis básicos de los datos.
También, las librerías R que permiten construir Modelos de Aprendizaje Supervisado y No Supervisado, así como las librerías más actuales para “data wrangling” con R.
Por lo tanto, un Data Scientist tiene que ser capaz de aplicar técnicas de Machine Learning con R, para predecir la nota de un grupo de estudiantes, basándote en sus notas previas, y un set de variables demográficas.
Con R Markdown, un Data Scientist será capaz de generar un informe con los resultados de su análisis, sin salir de tu entorno de programación R Programming. Un informe HTML, PDF, DOCX, … Que podrá compartir, enviar por correo o presentar a sus clientes, managers o colegas, mostrando tus conclusiones en texto, así como los fragmentos de código R y gráficos que quiera mostrar, sin utilizar ninguna herramienta ofimática adicional, sólo programando código R Markdown.
Análisis de Datos y Aprendizaje Automático con Python
El Data Scientist, también le es necesario usar los lenguajes de programación Python, así como algunas de las librerías más relevantes en el análisis de datos para realizar un caso de uso relacionado con el análisis de fuentes de datos abiertos.
Y también, tiene que saber un Data Scientist, a conectarse con Twitter utilizando su API público, para desarrollar un programa que escuche tweets en tiempo real sobre distintas temáticas.
Data Science en escala: Administración de Hadoop
Partiendo del hecho que la administración de un clúster Big Data no es una función propia de un Data Scientist, siempre resulta interesante conocer el entorno sobre el que se ejecutan los procesos Big Data, así como los diferentes componentes y configuraciones existentes. Por eso, es un Data Scientist, debe conocer los componentes y arquitectura de un clúster Big Data, adquiriendo los conocimientos básicos para poder gestionar y configurar un clúster de acuerdo con nuestras necesidades. Para ser capaces por ejemplo de asignar la capacidad del clúster que puede utilizar un usuario o grupo de usuarios, así como controlar qué usuarios pueden acceder a cada información almacenada en el clúster.
Adquisición y Almacenamiento Big Data
Uno de los aspectos fundamentales de Big Data, precisamente por lo desmesurado de su tamaño, es el conocimiento de las técnicas de adquisición de datos y almacenamiento de estos en escala, así como saber determinar cuál es el soporte más idóneo para cada tipo de caso de uso.
Las fuentes de datos provenientes de diferentes sistemas de generación de información de tipo automático (tipos logs, sensores…) pueden ser muy variadas e incluso en ocasiones han de ser tratadas rápidamente pues los datos son generados y llegan a la plataforma Big Data a gran velocidad. La herramienta Flume hace que esta ingestión masiva de datos sea sencilla y eficaz.
Por otra parte, hemos de tener en cuenta que estos sistemas Big Data van a convivir con otros sistemas de almacenamiento tradicional en muchas de las compañías existentes y que es muy importante conocer de qué manera se pueden integrar estos dos tipos de estructuras comunicándose unas con otras para obtener el mayor rendimiento de los datos. Con Sqoop pasaremos datos fácilmente desde bases de datos SQL a la plataforma Big Data y viceversa.
En cuanto al tipo de almacenamiento, es obvio que los datos deben ser almacenados, pero diferenciando básicamente las estructuras de almacenamiento Big Data HDFS que sirven como un paso intermedio para el procesamiento de la información, normalmente en procesos batch, frente a los sistemas de almacenamiento de datos finales listos para el consumo por parte del usuario (NoSQL e Indexadores de documentos) y que suelen encontrarse al final de la cadena o pipeline del procesado de datos.
Por eso, un Data Scientist, entre otras cosas, debe ser capaz de llevar datos a tu sistema de almacenamiento Big Data en HDFS y de ahí a tablas en HIVE (herramienta para explotar Big Data con lenguaje SQL).
Comprender la importancia y dimensión que ha tomado el análisis de grandes volúmenes de datos (Big Data) en las empresas e incluso en la sociedad actual es un primer paso para situarnos en un mundo complejo y apasionante al mismo tiempo
Análisis de Datos y Machine Learning con Big Data
El reconocimiento de los servicios que forman parte de Hadoop, entender el paradigma básico de programación Map&Reduce y utilizar las herramientas del ecosistema que permitan realizar el tratamiento y análisis de datos abstrayéndonos de la complejidad de la programación, es fundamental en el trabajo para un Data Scientist.
Para consolidar estos conceptos se puede comprobar, mediante un ejemplo práctico en el que se computa el número de contratos realizados por cada Comunidad Autónoma en España, que el resultado obtenido es el mismo independientemente de la herramienta utilizada.
Por otra parte, el Data Scientist debe conocer los conceptos básicos de Spark, la herramienta de procesamiento Big Data en la actualidad, que permiten realizar el análisis exploratorio y la preparación de un gran volumen de datos empleando muy bajo tiempo de procesamiento. También debe ser capaz de generar un modelo de Machine Learning de forma distribuida le permita predecir las notas finales de un grupo de alumnos en base a diferentes variables relacionadas con su modo de vida y las notas en trimestres anteriores utilizando las librerías propias de Spark (ML) u otras herramientas que usan Spark o Hadoop por debajo (RSpark, H2O).
Universo Big Data
Un gran caso del Universo Big Data son los Sistemas de Recuperación de la Información, que gracias a la utilización y optimización de los mismos, para grandes volúmenes de datos hizo del buscador de Google, líder indiscutible y que fue el germen para muchas otras aplicaciones Big Data y los Recomendadores que convirtieron a Amazon en un claro caso de éxito de ventas online utilizando la información del historial de ventas e interés de todos sus usuarios.
Por otra parte, el interés brutal que ha despertado Big Data en los últimos años, la vertiginosa rapidez con la que evoluciona y la falta de un referente claro en muchos ámbitos del mercado ha propiciado una auténtica explosión de herramientas libres o de pago que utilizando Big Data como base intenta hacer más fácil al usuario final llegar a obtener algún conocimiento de los datos que se convierta en una decisión de negocio. Es necesario, por tanto, tener una visión de alto nivel de qué tipo de actores juegan en este mercado y conocer los principales referentes de este. Por lo tanto, el Data Scientist debe manejar herramientas punteras de Business Intelligence (Qlikview), Data Discovery (Arcadia Data) y Machine Learning (Rapid Miner).
Otro caso del Universo Big Data
Visualizar se puede definir como “el conjunto de tecnologías que transforman datos en información mediante elementos visuales”. El proceso de la visualización de datos parte de información en formato “raw”, para posteriormente estructurarla para convertirla en información. Dicha información, una vez absorbida, comprendida y aplicada, por las personas, puede convertirse en conocimientos o insights.
Este proceso se realiza durante todas las etapas del proceso de generación de conocimiento, ya sea en la fase de data Discovery o en la presentación de resultados a nuestros clientes o a las personas objetivo de nuestro análisis o estudio.
El Data Scientist debe poner el foco, por un lado, en comprender las mejores prácticas a la hora de visualizar y presentar análisis de datos en función del tipo de resultado y del tipo de audiencia al que nos queremos dirigir. Por otro lado, su aplicación práctica ya sea con aplicaciones comerciales como el desarrollo de elementos visuales con librerías avanzadas de visualización de datos. Siendo el resultado la aplicación práctica de Tableau o Carto sobre datos públicos (Open Data) para obtener una aplicación con la que poder explorar los datos de manera sencilla, amigable y a la vez potente.
Data Scientist está considerado como la profesión más atractiva del siglo XXI
En definitiva, el trabajo de un Data Scientist debe recoger todas las premisas anteriormente explicadas para así poder ser un Experto en Big Data. Estas mismas premisas son las que se estudian en el Máster en Big Data & Business Intelligence certificado por la Universidad Católica de Murcia (UCAM).
¿Qué hay que estudiar para trabajar en Big Data?
Entonces, a la pregunta ¿Qué debes estudiar para ser un experto en Big Data? La respuesta evidente es el Máster en Big Data & Business Intelligence, ya que está realizado e impartido por profesionales expertos del sector y te prepara para trabajar como Data Scientist o Business Analyst, aprovechando toda la potencia de la Inteligencia Artificial.