Transcritor de áudio e vídeo
Insira um arquivo de áudio ou vídeo e obtenha uma transcrição precisa, além de legendas SRT e VTT prontas para uso – 100% no seu navegador, sem nada carregado.
MP3, WAV, M4A, MP4, MOV and more. Everything runs in your browser — your file is never uploaded.
SRT and VTT subtitle files use the AI's time-codes — drop them into YouTube, Premiere, DaVinci Resolve or CapCut. Edit the text above before downloading the .txt if needed.
Este transcritor transforma a fala de qualquer arquivo de áudio ou vídeo em texto usando um modelo de reconhecimento de fala de IA (OpenAI Whisper) que é executado inteiramente dentro do seu navegador – para que seu arquivo nunca seja carregado em um servidor e permaneça completamente privado. Insira um arquivo MP3, WAV, M4A, MP4 ou similar e ele retornará uma transcrição limpa, além de arquivos de legenda SRT e VTT com código de tempo que você pode usar no YouTube, Premiere, CapCut ou qualquer editor de vídeo. Funciona em dezenas de idiomas, não tem limites de comprimento ou inscrição e é gratuito. O modelo de IA é baixado uma vez no primeiro uso (depois é armazenado em cache) e uma GPU (WebGPU) acelera automaticamente quando disponível.
Perguntas frequentes
Este transcritor de áudio para texto é realmente gratuito e privado?
Sim - é totalmente gratuito, sem inscrição, e é privado por design: o modelo de fala é executado dentro do seu navegador, para que seu arquivo de áudio ou vídeo nunca saia do seu dispositivo e nunca seja carregado em nenhum servidor.
Ele carrega meu arquivo para um servidor?
Não. A transcrição acontece 100% no seu próprio dispositivo usando um modelo de IA no navegador. Nada é enviado para lugar nenhum, por isso é seguro para gravações confidenciais, como reuniões, entrevistas ou notas de voz.
Posso obter legendas SRT ou VTT, não apenas texto?
Sim. Junto com a transcrição de texto simples, você obtém arquivos de legenda SRT e VTT com código de tempo para download, prontos para serem colocados no YouTube, Premiere Pro, DaVinci Resolve, CapCut ou qualquer fluxo de trabalho de legenda.
Quais formatos e idiomas de áudio e vídeo são suportados?
Os formatos mais comuns funcionam – MP3, WAV, M4A, OGG, FLAC, além de MP4 e outros vídeos (a faixa de áudio é lida automaticamente). O modelo Whisper compreende dezenas de idiomas e os transcreve em sua própria escrita.
Quão precisa é a transcrição?
Ele usa OpenAI Whisper, um dos melhores modelos abertos de reconhecimento de fala, para que a fala clara seja transcrita com muita precisão. Ruído de fundo, acentos pesados ou alto-falantes sobrepostos podem diminuir a precisão – você pode editar rapidamente a transcrição antes de exportá-la.
Por que ele baixa algo na primeira vez?
O modelo de fala de IA (algumas dezenas de MB) é baixado uma vez no primeiro uso e é então armazenado em cache pelo seu navegador, para que as transcrições posteriores sejam iniciadas instantaneamente. Um dispositivo com WebGPU funciona visivelmente mais rápido.