Microsoft logra un gran avance en el subtítulo de imágenes asistido por IA

El poder de la nube sigue impresionando, ya que la IA impulsada por Microsoft ahora puede escribir títulos de imágenes tan buenos o mejores que las personas reales.

Si bien la mayoría de los habitantes de Internet dan por sentadas las imágenes que se presentan con la mayoría del contenido en línea, la información visual proporcionada puede mejorar en gran medida la experiencia de consumo de contenido, así como mejorar la comprensión lectora. Para aquellos que pueden ser ciegos o tener alguna discapacidad visual, las imágenes sin subtítulos precisos o texto alternativo pueden dificultar la comprensión o el consumo. En un esfuerzo por hacer que el contenido sea más accesible para todos los usuarios potenciales, los miembros del equipo de Azure de Microsoft han estado desarrollando sistemas de inteligencia artificial que son capaces de agregar subtítulos o texto alternativo a las imágenes automáticamente. En muchos casos, estos subtítulos generados por computadora son de mayor calidad que los proporcionados por las personas.

En una nueva publicación publicada hoy en su Blog de IA, Microsoft detalla el reciente avance de la IA que cambiará la forma en que se subtitularán las imágenes. Sus equipos de investigación han trabajado arduamente para refinar y perfeccionar el reconocimiento de inteligencia artificial de la identificación de objetos y acciones novedosos. Combinar los resultados de esta investigación con el lenguaje generado por IA es la base para la subtitulación de imágenes automatizada.

Entrenar el modelo de IA para tal tarea implica introducir cientos de miles de imágenes en un conjunto de datos, y cada imagen está acompañada de etiquetas de palabras en lugar de subtítulos completos. Es similar a cómo enseñaría a un niño pequeño con la asociación de palabras. Se introduce una imagen de una manzana en el modelo junto con una etiqueta de “manzana”. Una vez que el modelo ha sido lo suficientemente entrenado para reconocer objetos y acciones individuales, el equipo se dedicó a enseñarle a crear oraciones legibles basadas en su vocabulario recién adquirido.

El nuevo modelo ya está disponible como parte del paquete Azure Cognitive Services y se implementará en Microsoft Word, Outlook, Powerpoint y otras aplicaciones a finales de este año.

A Chris Jarrard le gusta jugar, tocar melodías y buscar peleas en oscuros foros de mensajes en línea. Entiende que la comida del desayuno es la única comida verdadera. No lo @.