Tarea de inteligencia artificial

Imagen a texto

Una tarea multimodal que utiliza algoritmos de visión por computadora en combinación con modelos de generación de lenguaje para reconocer objetos, personajes, escenas o actividades dentro de imágenes y luego generar descripciones o identificaciones textuales relevantes.

Aporte

Imágenes estáticas o una transmisión de video

Producción

Desagregación descriptiva de las imágenes en forma de texto o índice.

Meta

Convertir información visual en descripción textual.

Estrategia de aprendizaje

Técnicas de visión por ordenador combinadas con generación de lenguaje natural.

Métrica de evaluación

Precisión, relevancia, exhaustividad y fluidez de las descripciones textuales.

Otras tareas de inteligencia artificial

Menú

es_MXES