- Google Gemini integra el modelo Lyria para generar canciones de 30 segundos con música, letra y voz a partir de prompts de texto e incluso imágenes o vídeos.
- La app de Gemini ofrece una herramienta guiada de “Crear música” y la opción de pedir temas directamente por chat, con posibilidad de descargar, compartir e iterar resultados.
- Para desarrolladores, Lyria RealTime permite generar música instrumental en tiempo real vía API, controlando género, instrumentos y parámetros como tempo, densidad o escala.
- Google aplica SynthID como marca de agua y políticas de uso responsable para evitar imitaciones directas de artistas y proteger los derechos de autor en la música generada.

La música generada con Google Gemini ha dejado de ser un experimento curioso para convertirse en una herramienta real que cualquiera puede usar desde su ordenador o móvil. Gracias al modelo musical Lyria, integrado directamente en Gemini, ahora es posible transformar simples descripciones en canciones de 30 segundos, bandas sonoras experimentales o bases instrumentales listas para compartir.
Esta nueva función abre un abanico enorme de posibilidades: desde personas que solo quieren un clip musical rápido para un vídeo o un grupo de chat, hasta desarrolladores que buscan integrar generación de audio en tiempo real en sus aplicaciones mediante la API de Gemini. Vamos a ver cómo funciona todo esto, qué necesitas para usarlo, cómo sacarle partido y qué papel juega Lyria RealTime para la creación instrumental avanzada.
Qué es la música con Google Gemini y cómo funciona Lyria

Google ha integrado en Gemini un modelo específico de audio llamado Lyria, su tecnología de generación musical con IA. Este modelo es el encargado de interpretar tus instrucciones (prompts) y convertirlas en canciones cortas o en música instrumental continua, según la vía que utilices.
En la experiencia de usuario estándar, accesible desde la app o la web de Gemini, el sistema se centra en canciones de unos 30 segundos que incluyen música, letra y voz, generadas en el idioma que elijas. Estas piezas están pensadas como clips rápidos: ideales para concentrarse, poner banda sonora a un momento concreto o usarlas como guiño creativo en redes sociales.
Para desarrolladores y equipos técnicos, la historia cambia: a través de la API de Gemini y Lyria RealTime se puede generar música instrumental en tiempo real, controlando parámetros como tempo, brillo, densidad, instrumentos o escala musical mediante instrucciones estructuradas.
Toda esta tecnología se apoya en la naturaleza multimodal de Gemini: el asistente puede mezclar texto, imágenes y vídeo como entrada para inferir tono, atmósfera y elementos narrativos, y traducirlos en sonido. Esto lo sitúa un paso por delante de muchas herramientas que solo aceptan texto.
Requisitos para crear música con la app de Gemini
Antes de ponerte a pedirle canciones a Gemini, hay una serie de condiciones básicas que debes cumplir. No son complicadas, pero conviene tenerlas claras para no volverse loco intentando encontrar una opción que todavía no está disponible en tu cuenta.
En primer lugar, es imprescindible tener al menos 18 años. La generación musical con Gemini y Lyria está limitada a usuarios adultos, tanto por cuestiones legales como de política de uso responsable de IA.
También necesitas iniciar sesión con una cuenta de Google compatible. Puede ser una cuenta personal o una cuenta de trabajo o centro educativo, siempre que tu organización permita el uso de las aplicaciones de Gemini. En algunos entornos corporativos o educativos esta función puede estar restringida.
Otro punto clave es tener activado el ajuste “Conservar la actividad” en tu cuenta. Este ajuste permite a Gemini gestionar las interacciones de forma más coherente y está ligado a cómo Google ofrece ciertas funciones avanzadas, como la generación de música.
Por último, debes saber que la función se está implementando de forma gradual en la app móvil de Gemini. Es posible que, aunque cumplas todos los requisitos, todavía no veas la opción de crear música, especialmente en algunos países o cuentas concretas.
Cómo crear canciones de 30 segundos con Gemini paso a paso
La forma más directa de generar música si no eres desarrollador es usar las herramientas integradas en el propio chat de Gemini. Desde un ordenador o navegador moderno, el flujo es bastante sencillo y se puede repetir tantas veces como quieras dentro de los límites de uso.
Para empezar, entra en gemini.google.com con tu cuenta y abre una nueva conversación. Debajo del cuadro de texto donde escribes tus mensajes verás un botón o sección de “Herramientas”. Ahí es donde se esconde el acceso al creador musical.
Dentro de ese menú solo tienes que seleccionar la opción “Crear música”. En algunas cuentas puede aparecer también como sugerencia automática bajo el campo de texto cuando empiezas un chat nuevo, especialmente si Gemini detecta que quieres hacer algo creativo.
En la interfaz de creación, Gemini te permite subir archivos o imágenes opcionales para dar más contexto a la canción. Por ejemplo, una foto de un paisaje que quieras convertir en música ambiental, o una imagen de un cartel de fiesta para que la banda sonora vaya en esa línea. Estos archivos no son obligatorios, pero ayudan a que el resultado encaje mejor con lo que tienes en la cabeza.
Después llega la parte clave: escribir tu petición o prompt describiendo la canción que quieres generar. Debes indicar que quieres una canción de 30 segundos y aportar detalles sobre género, estado de ánimo, ritmo, idioma de la voz, temática de la letra, etc. Cuanto más concreto seas, más cerca estarás de lo que buscas a la primera.
Ejemplos de peticiones y buenas prácticas con los prompts
El arte de pedir buenos resultados a Gemini pasa por aprender a diseñar prompts bien descritos y razonablemente detallados. No hace falta escribir una novela, pero sí dar información suficiente para que el modelo tenga un punto de partida sólido.
Por ejemplo, puedes pedir algo como: “Una canción pop-rock en español, tempo medio, letra positiva sobre empezar un nuevo proyecto, con voz femenina y un estribillo pegadizo”. Con una instrucción de este estilo Gemini tiene claro género, idioma, tempo aproximado y temática.
Si quieres entrar más al detalle, puedes incluso proporcionar parte de la letra o indicar frases que quieras que aparezcan. También es posible especificar estructuras tipo verso-estribillo-puente, o matices como “que tenga un toque nostálgico pero optimista”.
En caso de que quieras algo mucho más experimental, puedes usar etiquetas de estado de ánimo y textura: “ambient minimalista, atmosférico, con pads suaves y ausencia de percusión, ideal para relajarse”. Gemini entiende bien este tipo de descripciones, sobre todo cuando combinas género, instrumentos y adjetivos.
Si el resultado no termina de convencerte, lo más práctico es pedir cambios en un nuevo mensaje dentro del mismo chat: por ejemplo, “sube un poco el ritmo y haz el estribillo más alegre” o “cambia la letra para que hable de un viaje en carretera”. El sistema tiene memoria del contexto y es capaz de iterar sobre tu clip original.
Dos formas de hacer música en Gemini: herramienta guiada y prompt directo
Gemini ofrece básicamente dos formas de arrancar el proceso creativo. Una está más guiada y pensada para ir paso a paso, y la otra es para quienes prefieren escribir un único prompt muy completo y dejar que la IA haga su magia.
El método guiado se activa desde el menú de “Crear música” como herramienta. Al acceder, encontrarás una selección de estilos musicales o ejemplos pregenerados, cada uno con un botón para escucharlos. La idea es que elijas el que más se parezca a lo que quieres como punto de partida, y a partir de ahí afines con tu propia instrucción.
Esta vía resulta útil si todavía no tienes muy claro el estilo y te apetece ir probando sonidos diferentes hasta dar con uno que encaje. Después solo tienes que escribir tu prompt, y Gemini invocará internamente a Lyria para generar la canción, que podrás reproducir, compartir o regenerar.
El segundo método pasa por escribir directamente un único prompt en el chat habitual de Gemini, sin pasar por menús. Algo tan simple como “crea una canción de 30 segundos en estilo trap en español, con voz masculina y letra sobre amistades online” basta para que el asistente reconozca que estás pidiendo música y active automáticamente el modelo correspondiente.
En ambos casos, una vez tengas la canción, puedes seguir interactuando con prompts adicionales para pedir ajustes, variaciones o nuevas versiones. Es un flujo bastante natural, similar a cómo trabajarías con Gemini para texto o imágenes, pero aplicado al audio.
Descargar, compartir y límites de la generación musical
Cuando Gemini termina de generar tu tema, verás una interfaz donde puedes reproducir la pista directamente para comprobar si te convence o si quieres pedir cambios. Desde ese mismo panel, la app te permite descargar el archivo o compartirlo.
La opción de descarga es ideal si quieres usar el clip en un vídeo, presentaciones, podcasts caseros o simplemente guardarlo como referencia creativa. Es un archivo corto, lo que facilita su envío y almacenamiento sin complicaciones.
También puedes o enviarla por mensajería a tus amigos o equipo. Aquí el enfoque de Google es que estos 30 segundos funcionen casi como pequeños memes sonoros o himnos personalizados para grupos de chat, fiestas o momentos concretos.
Eso sí, hay límites. Google establece restricciones de uso y volumen de generación que pueden variar según el tipo de cuenta y la suscripción (por ejemplo, Google AI Plus, Pro o Ultra suelen tener márgenes más amplios). Si te pasas, notarás que la herramienta deja de ofrecer nuevas generaciones hasta que se renueve el cupo.
Además, el sistema incluye filtros de seguridad y un diseño deliberado para evitar la imitación directa de artistas concretos. Si nombras a alguien en el prompt, Gemini lo tomará como inspiración general de estilo o emoción, pero no como una orden para copiarle la voz o una obra específica.
Verificación y marca de agua SynthID en el audio generado
Para mantener cierto control sobre el contenido creado con su tecnología, Google aplica su sistema de marca de agua imperceptible SynthID a todas las pistas generadas en la app de Gemini. Esta marca no afecta a la experiencia de escucha, pero permite identificar que el audio proviene de modelos de IA de Google.
Esto se complementa con nuevas capacidades de verificación de audio dentro de Gemini. Puedes subir un archivo de sonido y preguntarle al asistente si cree que ha sido generado con IA de Google; el modelo comprobará la presencia de SynthID y utilizará su razonamiento para darte una respuesta razonada.
La idea de fondo es ofrecer más transparencia en un contexto donde la frontera entre audio real y generado se vuelve cada vez más difusa. Tanto creadores como oyentes pueden tener así una referencia técnica adicional a la hora de evaluar contenidos.
En paralelo, Google recuerda que el uso de estos sistemas está sujeto a sus Condiciones de Servicio y políticas de uso prohibido de IA generativa, que vetan explícitamente la vulneración de derechos de autor, la invasión de privacidad o el uso malintencionado de voces y estilos identificables.
Enfoque responsable y disponibilidad de Lyria 3 en Gemini
Desde que lanzó las primeras versiones de Lyria, Google ha intentado mostrar un enfoque de colaboración con la industria musical, trabajando con artistas, sellos y otros actores para explorar los límites de esta tecnología. Proyectos experimentales como Music AI Sandbox forman parte de ese camino.
El entrenamiento de Lyria 3, integrado en Gemini, se ha realizado con especial atención a los derechos de autor y los acuerdos con socios. El objetivo declarado es que la generación musical sirva para la expresión original, no para clonar artistas concretos ni para recrear obras protegidas sin permiso.
Para reducir riesgos, el sistema incorpora filtros que comparan los resultados con contenido existente y mecanismos para que cualquier persona pueda denunciar pistas que considere que infringen sus derechos o los de terceros. No es un sistema perfecto, pero forma parte del esfuerzo por mantener un uso más responsable.
En cuanto a idiomas, Lyria 3 está disponible en la app de Gemini para usuarios mayores de 18 años en inglés, alemán, español, francés, hindi, japonés, coreano y portugués, con planes de ampliar la calidad y la cobertura a más lenguas en el futuro.
La filosofía general de la función es sencilla: poner una banda sonora divertida y personalizada al día a día, sin necesidad de saber teoría musical ni tener equipo profesional. Desde ahí, cada usuario decide si se queda en el juego casual o si profundiza más a nivel creativo.
Lyria RealTime y la generación de música instrumental en tiempo real
Más allá de la experiencia “para todos los públicos” en la app, Google ofrece a desarrolladores acceso a Lyria RealTime a través de la API de Gemini. Este modelo experimental permite generar y controlar música instrumental en tiempo real, con una conexión WebSocket bidireccional de baja latencia.
El flujo típico consiste en iniciar una sesión con el cliente de la API (por ejemplo, usando JavaScript), establecer una conexión en vivo con el modelo y definir instrucciones iniciales con objetos tipo WeightedPrompt, además de una configuración de generación con parámetros musicales (bpm, densidad, brillo, escala, etc.).
Una vez configurada la sesión, el desarrollador puede arrancar la reproducción con un comando play() y recibir fragmentos de audio en tiempo real que se envían como trozos codificados (por ejemplo, en base64) a través de la conexión. Estos fragmentos se decodifican y se envían a un reproductor de audio o sistema de salida, como una librería tipo Speaker en Node.js.
A diferencia del flujo conversacional de la app, aquí no hablas en lenguaje natural con el modelo, sino que le mandas mensajes estructurados en un formato específico. La interacción es más técnica, pero a cambio tienes mucha más precisión y control sobre cómo evoluciona la música.
La API de Lyria RealTime se parece al enfoque de la API Live de Gemini, pero orientada exclusivamente a audio musical instrumental, sin voz ni letra. Esto lo hace ideal para aplicaciones como juegos, experiencias interactivas o herramientas creativas donde la música debe reaccionar al usuario en tiempo real.
Dirigir la música con WeightedPrompt y MusicGenerationConfig
Mientras la sesión de Lyria RealTime está activa, el modelo admite que le envíes nuevos mensajes WeightedPrompt en cualquier momento para modificar la dirección musical. Cada WeightedPrompt incluye un campo de texto con la instrucción (“drum and bass rápido con bajo potente”, por ejemplo) y un peso numérico que indica cuánto debe influir esa instrucción.
Un peso de 1.0 suele ser un buen punto de partida, pero puedes experimentar con otros valores para lograr transiciones más sutiles. Si cambias radicalmente las instrucciones de golpe, la transición puede sonar algo brusca; para suavizarlo, suele recomendarse aplicar cambios graduales, modulando el peso en varios pasos.
Además de las instrucciones textuales, puedes ajustar la configuración de generación musical a través de MusicGenerationConfig. Ahí entran en juego parámetros como bpm (entre 60 y 200), density y brightness (entre 0.0 y 1.0), la escala musical, opciones para silenciar graves o batería, y el modo de generación (priorizar calidad, diversidad o vocalizaciones como instrumento).
Cuando cambias elementos drásticos como el tempo (bpm) o la escala, es recomendable restablecer el contexto del modelo con reset_context() para que tenga en cuenta la nueva configuración. Esto no detiene necesariamente el flujo de audio, pero sí implica una transición más abrupta en la música.
Otros parámetros clásicos como temperature, top_k o seed también se pueden personalizar para influir en la variedad y el carácter de las salidas. Temperature más alta suele dar resultados más impredecibles, mientras que valores bajos producen música más contenida y estable.
Tipos de instrucciones: instrumentos, géneros y estados de ánimo
Uno de los puntos fuertes de Lyria RealTime es la amplitud de instrucciones que entiende para describir música. Puedes especificar instrumentos concretos, géneros, estados de ánimo, texturas sonoras y muchas otras etiquetas combinables entre sí.
En el apartado de instrumentos, el modelo reconoce desde clásicos como guitarra, piano, violín o saxofón, hasta elementos más particulares como 303 Acid Bass, 808 Hip Hop Beat, TR-909 Drum Machine, Buchla Synths, marimba, sitar, kalimba o drumline. Esto permite construir paletas sonoras muy concretas en función del proyecto.
En cuanto a géneros, la lista es enorme: Acid Jazz, Afrobeat, Bluegrass, Bossa Nova, Drum & Bass, Dubstep, Lo-Fi Hip Hop, Indie Pop, Salsa, Reggaeton, Techno, Trance, Vaporwave y un largo etcétera. Lo interesante es que puedes mezclar varios géneros en un mismo WeightedPrompt para crear híbridos estilísticos.
Para describir el estado de ánimo o la textura, se admiten términos como ambient, chill, emocional, experimental, funky, ominous, upbeat, lo-fi, etéreo, glitchy effects, etc. Combinando estos adjetivos con géneros e instrumentos logras directrices muy precisas sin necesidad de notación musical formal.
En la práctica, lo más efectivo es ser descriptivo y concreto: indicar género base, instrumentos protagonistas y un par de adjetivos de ambiente suele dar resultados muy coherentes. A partir de ahí, ir afinando con nuevas instrucciones para llevar la música a donde necesitas.
Detalles técnicos, prácticas recomendadas y limitaciones
A nivel puramente técnico, Lyria RealTime entrega el audio en formato PCM sin procesar de 16 bits, con una tasa de muestreo de 48 kHz y dos canales en estéreo. Esto significa que tendrás que gestionar tú mismo el buffer de audio y el envío a un reproductor o dispositivo de salida en tu aplicación.
Se recomienda implementar un almacenamiento en búfer sólido del audio entrante para evitar cortes y saltos, teniendo en cuenta que siempre puede haber pequeñas variaciones en la latencia de red o en el tiempo que tarda el modelo en generar cada fragmento.
En cuanto al control de la reproducción, la API expone comandos tipo play(), pause(), stop() y reset_context(), que permiten iniciar, pausar, detener o reconfigurar la sesión sobre la marcha. Todo esto se integra con los mensajes de WeightedPrompt y MusicGenerationConfig que dirigen la composición.
Hay que tener en cuenta varias limitaciones importantes: Lyria RealTime genera solo música instrumental (sin voz ni letra), el audio de salida siempre incluye marca de agua para su identificación, y los filtros de seguridad pueden ignorar instrucciones que entren en conflicto con las políticas de uso.
Si no indicas valores para parámetros como bpm, densidad o brillo, el modelo tomará decisiones razonables basadas en tus instrucciones. Sin embargo, para casos de uso muy precisos (por ejemplo, sincronizar música con animaciones o game loops), es preferible fijar estos parámetros de forma explícita.
Casos de uso para usuarios, creadores y startups
Desde el punto de vista práctico, la generación de música con Gemini abre muchas puertas, tanto para usuarios individuales como para equipos de marketing, creadores de contenido y startups que quieran automatizar parte del trabajo sonoro.
En marketing y contenido digital, es posible generar piezas musicales originales sin licencias de stock, lo que reduce costes y agiliza la producción de vídeos, reels, anuncios breves o intros de podcast. Un equipo pequeño puede construir una identidad sonora propia sin necesitar un departamento de audio dedicado.
En el terreno del producto, empresas que desarrollan herramientas SaaS de edición de vídeo, diseño o creación de contenido pueden integrar la API de Gemini y Lyria como una funcionalidad diferenciadora: el usuario sube su vídeo, describe el tono que quiere y la plataforma genera automáticamente la banda sonora.
En gaming y entretenimiento, estudios indie pueden producir música ambiental y efectos sonoros adaptativos de forma rápida, haciendo que el soundtrack reaccione a lo que haga el jugador en tiempo real. Esto reduce tiempos de desarrollo y permite iterar más rápido en prototipos.
Todo ello se enmarca en una tendencia clara: la democratización de la producción audiovisual. Cada vez hacen falta menos barreras técnicas para crear contenido con un acabado profesional, siempre que se sepa dirigir bien a los modelos y entender sus limitaciones.
En conjunto, la combinación de canciones de 30 segundos en la app de Gemini y la potencia de Lyria RealTime vía API coloca a Google en una posición fuerte dentro de la IA musical: ofrece una herramienta accesible para el usuario medio y, al mismo tiempo, una plataforma técnica potente para equipos que quieran construir productos alrededor del audio generado por IA. Si se usan con cabeza y criterio creativo, estas funciones pueden convertirse en un aliado habitual tanto para el ocio como para proyectos serios.
