Crea diálogos y audios con un asistente de Gemini
El uso de Text-to-Speech (Texto a Voz) es una tecnología que permite que una inteligencia artificial lea un texto escrito y lo convierta en sonido, imitando la voz humana. Imagina que es un actor de doblaje digital: tú le das el guion y él lo interpreta en voz alta.
He probado si esta tecnología se puede usar desde un Gem (asistente) de Gemini, sin necesidad de usar Google AI Studio. Y sí, se puede.
He creado un asistente llamado Arquitecto Sonoro para que use modelos de IA de última generación TTS que permitan:
Elegir si la voz es de hombre o de mujer, joven o mayor.
Gracias a las "Notas de dirección", pedirle que lo haga con un acento específico (como el español de España) o con una emoción concreta (como alegría, tristeza o sarcasmo).
Gestionar varias voces a la vez, asignando a cada "actor digital" su parte del diálogo, creando así una escena sonora completa.
El modelo que usa este Gem genera el audio de forma nativa dentro del mismo proceso que genera el texto. A diferencia de las versiones antiguas, donde cada voz era un archivo o modelo separado, este sistema integra un catálogo de voces (Kore, Zephyr, etc.) que comparten un mismo motor inteligente, permitiendo diálogos fluidos entre géneros y tonos sin cortes.
Requiere de ti que le des contexto sobre lo que quieres conseguir y seguir los pasos que propone el asistente. A veces, no respeta el género o tono de las voces, por lo que debes recordárselo para que corrija este u otros errores.
¿Para qué sirve?
El Arquitecto Sonoro permite que el profesor diseñe experiencias de aprendizaje basadas en la oralidad y el análisis narrativo. Su función principal es generar el código de una aplicación interactiva que permite:
Crear diálogos polifónicos: Configurar conversaciones entre múltiples personajes (figuras históricas, autores filosóficos, estudiantes extranjeros, etc.).
Modelar la interpretación: Ajustar no solo qué dicen los personajes, sino cómo lo dicen. Gracias a un panel de "Notas de dirección", el docente puede forzar acentos (como el castellano peninsular), tonos emocionales (ironía, melancolía, entusiasmo) y rasgos culturales específicos.
Producir audios descargables: La aplicación resultante genera archivos de audio de alta fidelidad (.wav), listos para ser utilizados en clase, en podcasts educativos o en actividades de comprensión auditiva.
¿Cómo funciona el proceso de creación?
El asistente no entrega un código frío de inmediato; trabaja mediante un proceso de iteración guiada en cuatro fases:
Fase 1: El asistente te interroga sobre el objetivo de tu aula, los personajes y las emociones que buscas. Importante: te recuerda que debes activar el modelo Pro de Gemini para que funcione bien.
Fase 2: Se define qué controles necesita tu app (selectores de voz, campos de texto, controles de velocidad para idiomas, etc.). Es un diseño a la carta según tus necesidades.
Fase 3: Una vez definido el plano, el asistente te recuerda que debes activar el modo Canvas de Gemini. Aquí, la aplicación se materializa visualmente. Puedes probarla en tiempo real, generar audios, verificar que las voces masculinas y femeninas son correctas y ajustar el código mediante el diálogo hasta que sea perfecto.
Fase 4: Con la app terminada, el asistente te ofrece sugerencias sobre cómo explotar esos audios en el aula.
Ejemplo de interacción
- Accedes al Gem desde tu navegador. Recomiendo Chrome.
- Conviene antes de nada saber qué quieres crear. Pero si no lo sabes, el Gem te da ideas.
- Imagina que eres docente de ELE. Puedes empezar así: "Hola. Quiero crear una app para mi clase de ELE con alumnos de nivel A2". Si tienes claro el contexto y los detalles, dáselos.
- El Gem se va a presentar y decirte para qué sirve. Debajo te recordará que actives el modelo Pro de Gemini. Esencial si quieres que funcione. Debajo de este texto, te hará varias preguntas y aportará una sugerencia, por si quieres incorporarla a tu app. Al final, te dirá algo así: "¿Qué te parece esta idea? ¿Deseas añadir o modificar algo de los puntos anteriores antes de pasar al diseño de la interfaz?"
- El asistente confirma tus preferencias. Si tienes alguna más, la añades. Si no, avanzas. Importante: Te pedirá que actives el modo Canvas. Debes hacerlo sí o sí. Si no, no se abrirá el código para ver tu app en vivo y poder modificar elementos. Te dirá algo así: "Para poder pasar a la Fase 3 y escribir el código de tu aplicación, tenemos una regla estricta: Para que pueda generar la app interactiva, por favor activa el modo Canvas y confírmamelo. En cuanto me respondas confirmando que lo tienes activado, generaré el código completo. ¡Espero tu confirmación!" Dile: Activado y sigue adelante. Verás una interfaz similar a ésta.
- Este es el modo Canvas de Gemini. Desde la columna de la izquierda podrás darle instrucciones de mejora de tu app. A la derecha irás viendo reflejadas las mejoras de tu app. Puedes cambiar detalles de estilo, estética, textos, colores... O cambios estructurales y corrección de errores.
- Verás siempre por defecto los siguientes elementos en la app:
- Revisa todo y si te gusta, dale a "Generar Audio". Te aparecerá debajo el audio. Escúchalo, y si hay detalles que no respeta, díselo en la columna de la izquierda del modo Canvas y hará las revisiones. A veces puede dar error. Dile que los corrija.








Comentarios
Publicar un comentario