Stability AI Lança Stable Audio 3.0: Música por IA de Até Seis Minutos

A Stability AI, conhecida por seu modelo de geração de imagens Stable Diffusion, anunciou o lançamento do Stable Audio 3.0, uma nova família de modelos de inteligência artificial capaz de criar músicas e efeitos sonoros com até seis minutos e vinte segundos de duração. A novidade, divulgada em 20 de maio de 2026, representa um avanço significativo na área de geração de áudio por IA, dobrando a capacidade máxima de seu predecessor, o Stable Audio 2.0, que gerava faixas de até três minutos.

Os novos modelos foram treinados exclusivamente com dados licenciados, uma estratégia da empresa para mitigar as crescentes preocupações com direitos autorais que afetam outras plataformas de IA musical.

Stable Audio 3.0: Uma Família de Modelos para Diversas Aplicações

O Stable Audio 3.0 não é um modelo único, mas sim uma família composta por quatro variantes, cada uma otimizada para diferentes casos de uso e capacidades técnicas.

Small SFX (459 milhões de parâmetros): Projetado para a geração de efeitos sonoros em dispositivos locais, como smartphones e notebooks, com duração de até dois minutos.
Small (459 milhões de parâmetros): Focado em composição musical completa diretamente em dispositivos, também com faixas de até dois minutos.
Medium (1,4 bilhão de parâmetros): Oferece maior musicalidade, estrutura e coerência melódica, gerando composições de até seis minutos e vinte segundos.
Large (2,7 bilhões de parâmetros): O modelo mais avançado da família, desenvolvido para plataformas de música e aplicações criativas que demandam alta musicalidade, baixa latência e grande volume de geração.

Veja também:

Tecnologia e Recursos Inovadores

A arquitetura subjacente ao Stable Audio 3.0 é um codificador automático semântico-acústico, que permite a geração de áudio de comprimento variável com granularidade por segundo. Isso significa que os usuários podem especificar a duração exata da música que desejam criar.

Além da geração de músicas do zero a partir de prompts de texto, a ferramenta oferece recursos avançados como:

Ajuste fino (LoRA fine-tuning): Permite aos usuários personalizar os modelos com seus próprios dados de áudio.
Inpainting de áudio: Possibilita a modificação de segmentos específicos de uma faixa ou a extensão de composições existentes.

A Stability AI destaca que os modelos Medium e Large são capazes de manter a estrutura musical e o tom melódico ao longo de composições mais longas, um desafio comum em modelos de IA generativa de áudio.

Licenciamento e Direitos Autorais: Um Diferencial Competitivo

Um dos maiores diferenciais do Stable Audio 3.0 é o seu compromisso com o licenciamento de dados. A Stability AI afirma que todos os modelos foram treinados em bases de dados totalmente licenciadas, incluindo mais de 800 mil arquivos de áudio da biblioteca AudioSparx e gravações Creative Commons do Freesound.

Essa abordagem visa evitar as batalhas judiciais por direitos autorais que têm afetado concorrentes como Suno e Udio. A empresa firmou acordos com gigantes da indústria musical, como Warner Music Group e Universal Music Group, em 2025, para desenvolver ferramentas de criação musical baseadas em IA com catálogos licenciados.

Em termos de uso, os modelos Small SFX, Small e Medium são de “peso aberto” (open-weight), o que significa que podem ser baixados e utilizados gratuitamente por desenvolvedores e criadores. A licença comunitária da Stability AI permite que os usuários possuam e comercializem suas criações, desde que o faturamento anual não exceda um milhão de dólares. Para empresas com receita superior a esse valor, é necessária uma licença corporativa específica, que inclui indenização legal.

O modelo Large, por ser o mais robusto, é acessível apenas via API da Stability AI ou por meio de serviços pagos de auto-hospedagem para implantações empresariais.

Desdobramentos e o Cenário da IA Musical

O lançamento do Stable Audio 3.0 ocorre em um momento de amadurecimento acelerado do mercado de inteligência artificial musical. A concorrência é intensa, com players como Suno, que já gera faixas de até 8 minutos com sua versão v5, Udio e Google com suas ferramentas MusicLM e Gemini.

A Stability AI, que já enfrentou litígios por direitos autorais relacionados ao seu gerador de imagens Stable Diffusion, busca solidificar sua posição no mercado de áudio com uma proposta que enfatiza a legalidade e a colaboração com a indústria musical. A contratação de executivos experientes do setor, como Ethan Kaplan (ex-Universal Audio e Fender), para liderar sua oferta profissional, reforça essa estratégia.

A capacidade de gerar músicas de maior duração e com qualidade profissional, aliada a uma política de licenciamento clara, posiciona o Stable Audio 3.0 como uma ferramenta promissora para músicos, produtores e empresas que buscam explorar o potencial da IA na criação de conteúdo sonoro.