オーディオとビデオのトランスクライバー

オーディオまたはビデオ ファイルをドロップすると、正確なトランスクリプトに加えて、すぐに使用できる SRT および VTT 字幕を取得できます。何もアップロードせずに、100% ブラウザーで実行できます。

MP3, WAV, M4A, MP4, MOV and more. Everything runs in your browser — your file is never uploaded.

このトランスクライバーは、完全にブラウザ内で実行される AI 音声認識モデル (OpenAI Whisper) を使用して、オーディオ ファイルまたはビデオ ファイル内の音声をテキストに変換します。そのため、ファイルはサーバーにアップロードされることはなく、完全にプライベートな状態が保たれます。 MP3、WAV、M4A、MP4、または同様のファイルをドロップすると、クリーンなトランスクリプトとタイムコード化された SRT および VTT 字幕ファイルが返され、YouTube、Premiere、CapCut、またはその他のビデオ エディタで使用できます。数十の言語に対応しており、長さの制限やサインアップはなく、無料です。 AI モデルは最初の使用時に 1 回ダウンロードされ (その後キャッシュされます)、GPU (WebGPU) が利用可能な場合は自動的に高速化されます。

よくある質問

この音声からテキストへの文字起こしは本当に無料でプライベートなのでしょうか?

はい - サインアップなしで完全に無料で、設計により非公開です。音声モデルはブラウザ内で実行されるため、オーディオ ファイルやビデオ ファイルがデバイスから出たり、サーバーにアップロードされたりすることはありません。

ファイルをサーバーにアップロードしますか?

いいえ。文字起こしは、ブラウザ内の AI モデルを使用して、100% ご自身のデバイス上で行われます。どこにも何も送信されないため、会議、インタビュー、音声メモなどの機密性の高い録音にも安全です。

テキストだけでなく、SRT または VTT 字幕を取得できますか?

はい。プレーンテキストのトランスクリプトに加えて、タイムコード化された SRT および VTT 字幕ファイルをダウンロードして、YouTube、Premiere Pro、DaVinci Resolve、CapCut、またはその他の字幕ワークフローにすぐにドロップできるようになります。

どのようなオーディオおよびビデオの形式と言語がサポートされていますか?

MP3、WAV、M4A、OGG、FLAC、さらに MP4 およびその他のビデオなど、ほとんどの一般的な形式が機能します (オーディオ トラックは自動的に読み取られます)。 Whisper モデルは数十の言語を理解し、それらを独自のスクリプトで転写します。

転写はどの程度正確ですか?

最高のオープン音声認識モデルの 1 つである OpenAI Whisper を使用しているため、明瞭な音声が非常に正確に書き起こされます。背景のノイズ、強いアクセント、話者の重なりにより精度が低下する可能性があります。エクスポートする前にトランスクリプトをすばやく編集できます。

初めて何かをダウンロードするのはなぜですか?

AI 音声モデル (数十 MB) は、最初の使用時に一度ダウンロードされ、ブラウザーによってキャッシュされるため、その後の文字起こしは即座に開始されます。 WebGPU を搭載したデバイスでは、著しく高速に実行されます。