¿Cómo reconocen las maquinas emociones humanas? ¿Y por qué debería preocuparme?

A través de la Inteligencia Artificial, las maquinas puedan identificar emociones humanas. Estas máquinas no pueden (por el momento) sentir emociones como nosotros los humanos, pero son capaces de comprender nuestro estado emocional a través de imágenes y videos. Pero la pregunta es, ¿cómo es posible?

¿Cómo se dota a una máquina de emociones?

 Para todos es conocido que una de las grandes diferencias entre los humanos y las maquinas o robots, es que solo las personas pueden sentir emociones.

Una maquina es únicamente una combinación de ceros y unos, programada por humanos para realizar diferentes tareas, como el control de semáforos, cálculos matemáticos, videojuegos, etc. Incluso equipadas con la llamada inteligencia artificial, son capaces de vencer a los mejores jugadores de ajedrez (1951) o más recientemente en el juego Go (2016)

Este crecimiento exponencial de las capacidades de la inteligencia artificial (IA) ha dado lugar a nuevas palabras clave muy populares como #deepLearning, #machineLearning, #IA, o #NeuralNetworks.  Los avances tecnológicos de las redes neuronales en los últimos cinco años han sido increíbles, desde el punto de vista matemático y respecto a su uso en computadores, haciendo posible resolver problemas que, hasta la fecha, estaban fuera de su alcance o que requerían excesivos tiempos de procesamiento, desde semanas hasta meses.

Esto es lo que ha permitido que, a través de la IA, las maquinas puedan identificar emociones humanas. Estas máquinas no pueden (por el momento) sentir emociones como nosotros los humanos, pero son capaces de comprender nuestro estado emocional a través de imágenes y videos. Pero la pregunta es ¿cómo es posible?

Tal como hacen algunos humanos, utiliza la información que ofrecen las micro expresiones en la cara de las personas.

El potencial de micro expresiones universales en las facciones humanas.

Las micro expresiones son un movimiento muy rápido (del orden de ¼ de segundo) que los humanos no pueden controlar. Estas incluyen uno o más músculos faciales que están conectados directamente al cerebro. Estas micro expresiones han sido estudiadas por la comunidad científica, incluido Paul Ekman en 1978, que fue capaz de clasificar los diferentes músculos faciales y determinar que todos los humanos expresamos de manera universal siete emociones básicas de manera idéntica, sin importar cual sea nuestro origen o cultura. Estas expresiones son: felicidad, sorpresa, pena, miedo, enfado, asco y desprecio.

Los humanos hemos sido entrenados desde una edad muy temprana a ver y entender esas expresiones en la cara de los que nos rodean y actuar en consecuencia. Por ejemplo, si viajas al extranjero, aunque no hables el idioma de los nativos, de manera instintiva comprendes que es mejor no acercarte a preguntar algo a alguien como la persona en la imagen de la izquierda o incluso te mantendrás a distancia. Sin embargo, sí que nos aproximaríamos a la persona de la derecha, y podríamos hacerle una pregunta sin sentir ningún riesgo.

OK, las maquinas que utilizan micro expresiones están inspiradas en las teorías de Ekman con una ayuda de la AI. Pero esto no nos explica cómo funcionan.

Respondamos esa pregunta. Las maquinas utilizan redes neuronales convolucionales que utilizan funciones matemáticas como Leaky Relu para deducir las emociones humanas usando una imagen o un video.

Si no estoy doctorado en matemáticas o ingeniería informática, y tampoco soy un experto en neurociencia, ¿puedo entender cómo funcionan estas máquinas?

No te preocupes. En menos de cinco minutos, tras leer los siguientes párrafos, serás capaz de responder esta pregunta por ti mismo. Para ayudarnos en este proceso, sirvámonos de un ejemplo.

¿Cuál es la principal emoción que puede expresar una persona?

Tomemos como ejemplo las siguientes 4 imágenes de un video, donde una persona está expresando una emoción profunda. Son las primeras 30 decenas de segundo desde el nacimiento de esa emoción. Como persona, deberías ser capaz de adivinar cual es la principal emoción ¿verdad?

Si observas las dos imágenes de la izquierda, ¿crees que es un hombre feliz, a punto de soltar una carcajada?

Pero si ahora observas las dos imágenes de la derecha, ¿crees que es un hombre triste, que esta a punto de llorar? ¿O está enfadado a punto de ponerse a gritar? Eres un humano con neuronas biológicas, y no es tan obvio ¿verdad?

Veamos como la maquina se enfrenta a este desafío utilizando redes neuronales, o lo que es lo mismo, IA, y aprovechemos esta oportunidad para explicar esta operativa de una manera sencilla. Puedes probar si la explicación es realmente sencilla, pues hasta un niño de más de 10 años debería entenderla.

¿Qué es una red neuronal?

A la izquierda, tenemos una neurona. Recibe la información desde la flecha de la izquierda. Cálculos matemáticos analizan la información y el resultado es trasmitido vía la flecha de la derecha.

 

A la derecha, tenemos una red de 6 neuronas. Todas reciben información, la procesan y la trasmiten. Están todas interconectadas, como lo están las neuronas biológicas humanas, con la diferencia que en este caso son ceros y unos en una computadora. 

 

Este es un ejemplo de una red neuronal compuesta de varios «grupos “de neuronas organizadas en columnas llamadas «capas ocultas». Cada columna se ocupa de procesar información y enviarla a la columna de su derecha, hasta que se alcanza un resultado final. Por ejemplo, toma la imagen #2 para mostrar, paso a paso, la operación de la maquina a través de su red neuronal.

El primer paso es proporcionar a la maquina la imagen (la primera flecha en la izquierda). La primera neurona se ocupa de convertir esta imagen en una tabla numérica que representa la cantidad de rojo, verde y azul en cada píxel de la imagen. Hay que tener en cuenta que las pantallas de nuestros dispositivos están compuestas de muchos puntos (pixeles), a su vez compuestos de una cantidad determinada de rojo, verde y azul, cuya mezcla de lugar al color final de cada punto. Estas tablas numéricas son enviadas a la segunda columna de neuronas que tiene como tarea identificar las caras en la imagen.

El tercer paso es trasmitir la cara a la tercera columna de neuronas, que se responsabiliza de detectar puntos estratégicos en la cara. La mayoría de las redes neuronales identifican entre 68 y 105 puntos en una cara.

El cuarto paso consiste en identificar partes de la cara como la mandíbula, la boca, los ojos o las cejas.

El quinto paso es identificar la cantidad de emociones correspondientes a cada parte de la cara. Una boca con forma de sonrisa nos dará información relacionada con la felicidad. Unas cejas levantadas se pueden asociar a una sorpresa, etc.

La máquina finalmente deducirá que la imagen #2 contiene una cara humana a la que asocia con un 65% de felicidad y un 31% de enfado. De acuerdo con la máquina, en esta imagen, el hombre está a punto de reírse, y por tanto expresa felicidad. Para poder dar un resultado relevante, la maquina analizara una sucesión de imágenes de un video, como haría una persona durante un dialogo con otro humano, que tampoco es una acción estática.

Volvamos a nuestro ejemplo, y veamos que deduciría la maquina en base a estas 4 imágenes.

 ¿Cuál es la principal emoción de este hombre según la máquina?

Como vimos anteriormente, la maquina seguirá cuatro pasos, de acuerdo a cada columna de neuronas artificiales. Inicialmente aislara las caras de cada una de las cuatro imágenes.

Luego identificara 68 puntos en cada cara y deduce dónde se encuentra cada parte de la cara (aquí agrupamos los pasos 2 y 3).

Finalmente la maquina identifica la cantidad de emociones en cada una de las imágenes:

La máquina hará un cómputo de los resultados de cada imagen y deduce la principal emoción que sintió la persona. Según la máquina, este hombre está un 66% triste. Como humano, seguramente tú también llegaste a la misma conclusión (pero quizás sin asignar un porcentaje).

Si has llegado hasta aquí, serás capaz de explicar de manera breve cómo una maquina puede deducir emociones. Añade algunas palabras pomposas como redes neuronales convolucionales o Leaky Relu y serás considerado un científico por unos minutos.

Pero seguramente te estarás preguntando: ¿Para qué sirve? ¿Qué puede conseguir una maquina con esa información?

¿Por qué las maquinas deberían preocuparse de las emociones humanas?

Mientras esperamos a que eventualmente las maquinas puedan sentir emociones, verlas expresarse como humanos, ¿no sería fantástico que al menos puedan entender nuestras emociones?

Por ejemplo, para que eviten enviarnos un recordatorio del tipo “No te olvides de leer un cuento a tu hijo esta noche” cuando estamos en un viaje de negocios fuera o aislados en el extranjero debido al COVID-19, muy alejados de nuestros seres queridos.

Si las maquinas pueden comprender la tristeza que se siente en una noche en esa situación, quizás podrían ofrecernos la posibilidad de una videollamada en su lugar, o visionar un álbum de fotos familiar.

En el mundo empresarial, esto puede tener muchas implicaciones beneficiosas para los humanos. En el sector de la salud, por ejemplo, la maquina puede ayudar a pacientes con autismo ayudándoles a entender a otros seres humanos.

En el mundo de la publicidad, la maquina podría analizar las emociones de usuarios e indicar a las marcas si el consumidor es neutral o favorable frente a un nuevo producto o servicio, o cuál es el impacto de ciertos mensajes o eslóganes.

Para la industria del cine, podría mejorar la calidad de las películas, asegurando que las notas de humor son realmente graciosas o que un momento dramático realmente consigue ese sentimiento en los espectadores, y con qué intensidad.

Sí, las aplicaciones son infinitas.

Sin embargo, como experto en matemáticas, informática, neurociencia y comunicación no verbal, creo que únicamente con el uso de AI en micro expresiones faciales puede conducir a errores y sesgos importantes.

El límite de las micro expresiones

Como humanos, la cara es una de las principales partes de nuestra fisonomía para entender cómo se sienten otras personas, pero no es ni mucho menos la única. Cada segundo y sin darnos cuenta, analizamos si nuestro interlocutor nos mira directamente o tiene la mirada esquiva, analizamos sus gestos y la velocidad de su discurso, así como el tono de su voz.

La distancia a la que se posiciona nuestro interlocutor también nos indica el grado de relación que tenemos con él (si es un amigo cercano, será próxima, o más alejado si es un desconocido o alguna relación del trabajo). La máquina por tanto no puede estar limitada a únicamente datos recolectados de las expresiones faciales y debe construir inteligencia capaz de analizar muchos otros criterios.

La combinación ganadora de humanos + máquinas.

¿Cuál es el uso de esta inteligencia artificial y las emociones en el contexto profesional?

¿Puede el análisis de la comunicación no verbal en exclusiva ser suficiente para deducir emociones y cuantificar su intensidad? Como experto, mi respuesta directa es que NO.

Depende en particular del contexto en el que la persona esta interactuando.

Por ejemplo, una risa autentica con amigos, será trivial y aceptable. Por otro lado, si esa misma risa se produce durante una reunión profesional donde tu cliente está manifestando un desacuerdo contigo, será muy mal recibida y las consecuencias podrían ser desastrosas, si bien para la maquina ambas situaciones serian percibidas como una expresión de felicidad.

Para el uso profesional, las maquinas necesitaran del conocimiento humano para acertar en sus análisis, en particular respecto al contexto de las situaciones donde la información se recibe, y de mucho otros criterios que son muy complejos de automatizar para una máquina.

Si empleamos de manera inteligente esta alianza de humanos con las maquinas, mejorarán las capacidades humanas, pudiendo facilitar los intercambios entre hombres y mujeres, empresas y clientes o gobiernos y ciudadanos.

Estoy convencido de que la alianza humanos/maquinas enfocada en el análisis de emociones humanas mejorara las interacciones entre personas y mejorara la relevancia de las relaciones entre empresas y clientes

Artículo escrito por:
Luc Bonnin
CEO ReelTimeAI
www.reeltime-ai.com
Master engineer in mathematical, AI and computer science
Expert in neuroscience and non-verbal behaviors.