Stability AI ha lanzado Stable Audio 3.0 , una nueva familia de cuatro modelos de música con inteligencia artificial que, según la compañía, están entrenados íntegramente con datos con licencia y pueden generar pistas de más de seis minutos de duración.
Tres de los cuatro modelos son de peso libre, lo que significa que se pueden descargar y modificar libremente.
El lanzamiento, anunciado el miércoles (20 de mayo), representa un avance significativo con respecto a Stable Audio 2.0 , que se lanzó en abril de 2024 con una duración máxima de generación de tres minutos.
Stability AI declaró en su anuncio: “Hoy lanzamos Stable Audio 3.0, una familia de modelos entrenados con datos con licencia completa, diseñados para ser la base de lo que la comunidad de audio desarrolle en el futuro”.
“Tres de los modelos son de código abierto, se pueden descargar y utilizar como base para modificaciones.” La compañía añadió: “La música siempre ha evolucionado a través de la creatividad colectiva de su comunidad. “El audio generativo no será diferente. Queremos fomentar el mismo tipo de innovación impulsada por la comunidad en el ámbito del audio que impulsamos en la generación de imágenes con el lanzamiento de Stable Diffusion.” IA Stable Diffusion
“La cultura del remix, las interpolaciones y las combinaciones son la forma en que los artistas se basan en el trabajo de los demás e impulsan esta forma de arte hacia adelante.
“El audio generativo no será diferente. Queremos fomentar el mismo tipo de innovación impulsada por la comunidad en el ámbito del audio que impulsamos en la generación de imágenes con el lanzamiento de Stable Diffusion.”
Los cuatro modelos lanzados bajo la marca Stable Audio 3.0 son: Small SFX , diseñado para la generación de efectos de sonido en teléfonos móviles y ordenadores portátiles de consumo; Small , para la composición musical completa en el dispositivo; Medium , que ofrece pistas más largas de hasta 6 minutos y 20 segundos ; y Large , que según Stability AI es su modelo más avanzado, creado para plataformas musicales y aplicaciones creativas que requieren una generación de baja latencia a alto volumen.
Los modelos Small SFX y Small tienen cada uno 459 millones de parámetros y pueden generar audio de hasta dos minutos. El modelo mediano tiene 1.400 millones de parámetros y el modelo grande tiene 2.700 millones .
Los modelos Small SFX , Small y Medium están disponibles como modelos de peso libre en Hugging Face . El modelo Large no es de ponderación abierta; solo está disponible a través de la API de Stability AI, mediante el socio fal.ai o mediante licencias empresariales para implementación autohospedada. Stability AI declaró: “Todos los modelos de Stable Audio 3.0 se entrenan con datos con licencia completa. “Bajo la licencia de la comunidad de Stability AI, usted es propietario de sus resultados y puede distribuirlos y comercializarlos libremente.”
La compañía añadió: “Según tenemos entendido, otros modelos de música abierta restringen el uso comercial o conllevan los riesgos asociados a la formación con música sin licencia”. Las organizaciones con más de 1 millón de dólares en ingresos recurrentes anuales (ARR) requieren una licencia empresarial para uso comercial, que según Stability AI también incluye indemnización legal. Según un documento de investigación publicado junto con el lanzamiento, los modelos se entrenan con una combinación de audio con licencia de la biblioteca de producción AudioSparx , que comprende 806.284 archivos de audio, y grabaciones Creative Commons de Freesound .
Los nuevos modelos funcionan con lo que la compañía describe como una novedosa arquitectura de autoencoder semántico-acústico, que permite la generación de longitud variable con una granularidad de un segundo. Stability AI afirma que , según su conocimiento, el modelo Small es el único capaz de componer música completa en el dispositivo, sin conexión a internet y sin limitaciones de muestras cortas. La compañía también anunció la compatibilidad con el ajuste fino de LoRA , un método eficiente para personalizar modelos, junto con los lanzamientos de pesos abiertos y funciones de inserción de audio que permiten a los usuarios modificar segmentos de una pista o extender composiciones.
Stability AI ha declarado que también está desarrollando un nuevo conjunto de productos para músicos profesionales, aunque no ha revelado detalles sobre sus características. Según TechCrunch , Ethan Kaplan , ex director digital de Universal Audio y Fender , se une a Stability AI para liderar su oferta de música profesional. Este lanzamiento se produce en medio de una oleada de empresas de música con inteligencia artificial que contratan a ejecutivos de la industria musical tradicional.
A principios de este año, Suno contrató a Jeremy Sirota, ex director ejecutivo de Merlin , como director comercial . En enero, ElevenLabs también nombró a Derek Cournoyer , anteriormente de la editorial de música independiente Kobalt , como Director de Estrategia para Asuntos de Negocios Musicales.
El énfasis que Stability AI pone en los datos de entrenamiento con licencia y sus alianzas con importantes compañías discográficas la distinguen de sus competidores, que se han enfrentado a litigios por derechos de autor.
[Seguir leyendo]
https://www.musicbusinessworldwide.com



