
Resumen
El objetivo de esta plática es explorar cómo los sistemas que combinan lenguaje y visión aprenden a razonar visualmente, conectando información a lo largo de secuencias de imágenes. El enfoque será en dos proyectos recientes, ImageChain y MuSeD, que muestran cómo estos avances permiten analizar contenido visual complejo y contribuir a aplicaciones orientadas al bien social. Finalmente se hablará de los retos abiertos para desarrollar modelos capaces de generar explicaciones confiables.
Ponente
Danae Sánchez Villegas
Investigadora posdoctoral en la Universidad de Copenhague, y Doctora en Ciencias en la Computación por la Universidad de Sheffield
Informes
Dra. Helena Montserrat Gómez Adorno, helena.gomez@iimas.unam.mx