En esta tarea multimodal se utilizan el procesamiento del lenguaje natural y el aprendizaje automático para producir un habla similar a la humana a partir de un texto.
Lenguaje humano natural en forma textual
Audio de voz sintético
Para convertir texto en una voz que suene natural
Síntesis de texto a voz mediante aprendizaje profundo
Naturalidad, inteligibilidad, precisión y similitud con la voz humana.