Gemini integra geração de áudio e permite criar faixas musicais via chatbot

Ferramenta possibilita gerar clipes de 30 segundos a partir de textos, fotos ou vídeos sem sair da plataforma do Google

2 minutos de leitura

O Google Gemini expandiu suas funcionalidades e agora possui a capacidade de gerar arquivos de áudio com duração de até 30 segundos. A nova ferramenta permite que os usuários componham pequenos clipes musicais diretamente na interface do chatbot de inteligência artificial, dispensando a necessidade de acessar plataformas externas ou softwares adicionais de edição. O recurso aceita comandos baseados em textos, fotos ou vídeos para iniciar o processo de criação sonora, integrando diferentes mídias em um único ambiente de produção criativa.

O procedimento para a utilização da novidade foi desenvolvido para ser intuitivo. Na tela inicial do sistema, o usuário deve selecionar a opção destinada à criação musical, escolher um dos estilos disponíveis e inserir um comando de texto com informações detalhadas sobre a letra, o tema da canção e a presença de vocalistas. É importante notar que o sistema possui filtros de segurança ativos e moderados pela empresa; durante testes realizados, foi relatado que, em certas ocasiões, “o Gemini considerou o prompt controverso e tive que reescrevê-lo”, exigindo que o usuário inicie uma nova conversa para prosseguir com a solicitação.

Estratégias para composição no chatbot

Para obter resultados de qualidade superior utilizando o modelo Lyria 3, a precisão nos detalhes do comando inserido é fundamental. A inteligência artificial responde de maneira mais eficaz quando o usuário especifica o gênero musical, os instrumentos de destaque e a atmosfera desejada, utilizando adjetivos que descrevam o clima, como “melancólico”, “relaxante” ou “eufórico”. Em vez de solicitações genéricas, recomenda-se o uso de descrições técnicas e detalhadas, como o exemplo sugerido pela plataforma: “Crie um Ska tradicional com uma linha de baixo marcante, metais enérgicos e guitarra no contratempo”. Essa especificidade garante que a faixa gerada esteja alinhada com a expectativa do criador.

A ferramenta também oferece controle aprofundado sobre o estilo vocal e a interpretação da letra, permitindo definir se a voz deve ser grave, suave ou sussurrada, com suporte para o idioma português. No entanto, há uma restrição importante relacionada aos direitos autorais: os filtros do Google bloqueiam tentativas de imitar o estilo de cantores famosos. Um diferencial relevante é a capacidade de leitura visual, onde o usuário pode enviar um arquivo de mídia e solicitar: “Analise esta imagem e crie uma trilha sonora de 30 segundos que combine com a emoção desta cena”.

Integração com recursos visuais

A tecnologia permite fusões complexas de gêneros musicais, possibilitando misturas inusitadas como piseiro alternativo com influências de dream pop, resultando em faixas com instrumentação específica, como sanfona sintetizada e batidas eletrônicas. Para complementar a experiência auditiva, o modelo Nano Banana é acionado automaticamente para gerar uma capa exclusiva baseada no arquivo enviado pelo usuário. O sistema compreende nuances emocionais e pode direcionar a letra para temas específicos, desde que o contexto da história ou sentimento central seja fornecido de maneira clara no prompt inicial.

Gustavo Marangão3 semanas atrás

2 minutos de leitura

Estratégias para composição no chatbot

Integração com recursos visuais

Gabriela Medeiros desabafa sobre ator em Dona Beja: 'Transfake'

A memória como instrumento de reparação histórico, social e cultural

Artigos relacionados

Mudança no TikTok: saiba o que acontece com contas de menores de 16 anos em março

Babuínos sentem ciúmes? Estudo revela atitude surpreendente com irmãos

Vice de Zema desafia Justiça e diz que escolas cívico-militares serão abertas de qualquer jeito

Brasil vive explosão de deepfakes e se torna o maior alvo digital da América Latina