Estimación de la Pose con Deep Learning

La Inteligencia Artificial es una disciplina muy diversa y multidisciplinaria. Uno puede profundizar en las complejas matemáticas de una red neuronal, calcular innumerables probabilidades para construir un modelo o explorar técnicas avanzadas como la Estimación de la Pose. Entre las muchas opciones que ofrece la inteligencia artificial, una sobresale: los algoritmos pre-entrenados.

Qué es la Estimación de la Pose

La inteligencia artificial se caracteriza por su capacidad de adaptarse a un problema y resolverlo utilizando datos históricos. Sin embargo, para desarrollar un algoritmo, se requieren varios ingredientes: datos, tiempo, energía y un hardware adecuado para procesarlo. Los algoritmos que trabajan con datos no estructurados, como imágenes o texto libre, necesitan una cantidad enorme de datos. Recolectar tal volumen de datos es inalcanzable para un individuo; entrenar una gran red neuronal en casa con nuestros recursos no es factible. Por eso, los algoritmos pre-entrenados resultan tan valiosos.

Estos algoritmos pre-entrenados son herramientas potentes creadas por grandes actores del mundo de la IA, diseñadas para resolver problemas similares. Son gratuitos y fáciles de usar, permitiendo extraer valor de ellos sin la necesidad de entrenarlos con grandes cantidades de datos ni de decidir la arquitectura a utilizar, ya que todo esto ya está hecho.

Los algoritmos pre-entrenados tienen una naturaleza genérica que permite a los usuarios adaptarlos a sus necesidades, aunque la mayoría pueden utilizarse inmediatamente, casi como si fueran plug-and-play.

Una familia de algoritmos pre-entrenados increíblemente útil para numerosas aplicaciones relacionadas con nuestra posición corporal es la Estimación de la Pose. Esta técnica de visión por ordenador detecta figuras humanas en imágenes y videos, destacando sus articulaciones clave. El resultado es una representación de nuestras articulaciones y puntos clave, mostrando nuestra posición.

Construir un algoritmo así es costoso: se necesita una gran cantidad de imágenes etiquetadas por un experto humano, un vasto conocimiento de varias disciplinas de IA, un hardware muy potente y mucha paciencia. Afortunadamente, no necesitamos construirlo desde cero; solo debemos adaptarlo mínimamente si es necesario y usarlo. Muchas de las soluciones basadas en estos algoritmos son extremadamente potentes y simples de utilizar.

La imaginación es el límite para la Inteligencia Artificial

CONVIÉRTETE EN UN EXPERTO

Funcionamiento de la Detección de la Pose a Alto Nivel

El funcionamiento interno del algoritmo es un tema fascinante que dejaremos para otra ocasión. Aquí discutiremos cómo funciona desde el punto de vista del usuario, considerándolo una caja negra.

Esta “caja negra” recibe imágenes RGB, que pueden ser fotografías o imágenes en movimiento de diversas calidades y formatos. Lo importante es que haya al menos una persona en la imagen.

Norimichi-Ukita — Source: Norimichi Ukita, et al

Cuando la entrada es una imagen de una o varias personas, los algoritmos de detección de la pose devuelven un mapa de calor de las articulaciones del cuerpo, indicando la probable ubicación de cada articulación en la imagen. Cada articulación tiene asociada una confianza. Si la foto es clara y la articulación es visible, la confianza será alta; si la articulación está oculta, la confianza será baja.

Evolución de la Estimación de la Pose

La estimación de la pose no es una tecnología nueva. La gran novedad actual es que podemos usar esta tecnología sin cámaras ni trajes especiales gracias a la potencia de las redes neuronales. Ahora, cualquiera con una webcam puede hacer estimación de la pose. La inteligencia artificial ha democratizado su uso y desarrollo.

Consideraciones para Adaptar Algoritmos de Estimación de la Pose

Hay varias consideraciones importantes para adaptar estos algoritmos a tu aplicación, como:

¿Cuántas personas quiero detectar?
¿Qué tipo de entrada tengo?
¿Cuántas cámaras graban la misma escena?
¿Quiero aplicarlo a una imagen estática o a un video?
¿Quiero un modelo en 2D o en 3D?
¿Qué modelo corporal necesito?
¿Uno con 13 articulaciones o con 33?

Una vez que sabemos lo que queremos, solo necesitamos configurar el algoritmo y usarlo.

Ejemplos de Uso de la Estimación de la Pose

Es imposible enumerar todos los usos de esta tecnología, pero mencionaremos algunos de los más interesantes:

Deportes: Útil para analizar los movimientos de los deportistas. Puede enseñar a lanzar tiros libres o mejorar el pedaleo en ciclismo.
Salud: Aplicaciones que miden distonías musculares para estudiar tratamientos o que ayudan a realizar correctamente ejercicios de fisioterapia.
Seguridad: Estudiar las poses de las personas para detectar predisposiciones a la violencia en grandes concentraciones, como en estadios.
Entretenimiento: Juegos que se controlan con la posición corporal.

La imaginación es el límite para la Inteligencia Artificial. Por ejemplo, una aplicación que combine deportes y salud, caracterizando los movimientos de jugadores de boccia con parálisis cerebral, o una que corrija y ayude en sesiones de yoga.

Prepárate para trabajar como Data Scientist aprovechando toda la potencia de la Inteligencia Artificial

CONVIÉRTETE EN UN EXPERTO

Podemos incluso imaginar aplicaciones que controlen la domótica de nuestra casa o nuestro ordenador con gestos, como en las películas Minority Report o Iron Man. La estimación de la pose acepta muchos modelos corporales y algunos pueden leer posiciones de los dedos o expresiones faciales.

¿Cómo Obtener un Modelo de Estimación de la Pose? Para empezar, puedes explorar ejemplos aquí: TensorFlow PoseNet Demos.

Y para aprender más pinchar aquí.