julio 25, 2021

ARGENTINA BONITA

Te invito a casa

Científicos de MIT desarrollaron sistema que aprende a identificar objetos dentro de una imagen, basándose en una descripción oral de la imagen

han desarrollado un sistema que aprende a identificar objetos dentro de una imagen basándose en una descripción oral de la misma. Solo tienen que obtener la fotografía y un título en audio para que el sistema resalte en tiempo real las regiones relevantes de la imagen que se describe. El modelo no requiere transcripciones manuales y anotaciones, ya que aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí. Puede reconocer varios cientos de palabras y tipos de objetos diferentes, pero los investigadores esperan que algún día su técnica combinada de reconocimiento de objetos de habla pueda ahorrar innumerables horas de trabajo manual y abrir nuevas puertas en reconocimiento de voz e imagen. Sobre los problemas actuales comentan:

Los sistemas de reconocimiento de voz como Siri y Google Voice, por ejemplo, requieren transcripciones de miles de horas de grabaciones de voz. Usando estos datos, los sistemas aprenden a mapear señales de voz con palabras específicas. Tal enfoque se vuelve especialmente problemático cuando, digamos, nuevos términos ingresan a nuestro léxico, y los sistemas deben ser entrenados nuevamente.
Quieren hacer reconocimiento de voz de una manera más natural, aprovechando las señales adicionales y la información que los seres humanos tienen el beneficio de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Quieren entrenar a los sitemas informáticos de la misma forma que lo hacemos con los niños: paseando por el mundo y comentando lo que vemos. En el documento, los investigadores demuestran su modelo con la imagen de la captura superior, donde una niña con cabello rubio y vestido azul se encuentra frente a faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles en la imagen correspondían con las palabras “niña”, “cabello rubio”, “vestido azul”, “faro blanco” y “techo rojo”. Cuando se escuchaba un subtítulo de audio narrado, el modelo resaltó cada uno de esos objetos en la imagen tal y como se describieron. Un paso muy importante para la Inteligencia Artificial. [gallery]]]>