OCR PDF
スキャンした PDF や写真を、ブラウザ内で直接、選択およびコピー可能なテキストに変換します。
Drag & drop a scanned PDF or image here, or click to choose. OCR runs entirely in your browser — your file is never uploaded.
Recognition options
Private by design: the language model (trained data) is downloaded once from the CDN — your document stays on this device.
OCR PDF は、スキャンした PDF および画像ファイル (PNG/JPG) を読み取り、その中のテキストを抽出して、コピー、編集、検索できるようにします。認識は Tesseract を使用してブラウザ内で完全に実行されるため、ドキュメントがデバイスから離れることはなく、言語モデルが一度ダウンロードされるだけです。英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語、中国語、ロシア語から選択し、結果をコピーするか、.txt ファイルとして保存します。最高の精度を得るには、鮮明な高解像度スキャンを使用してください。印刷されたテキストは手書きよりもはるかによく認識されます。
よくある質問
OCR とは何ですか?このツールは何をしますか?
OCR (光学文字認識) は、スキャンした PDF または写真内のテキストの画像を実際の選択可能な文字に変換します。このツールは、PDF または画像の各ページで OCR を実行し、抽出されたテキストを .txt ファイルとしてコピーまたはダウンロードします。
私のファイルはサーバーにアップロードされていますか?
いいえ、認識は 100% ブラウザ内で行われるため、PDF や画像がデバイスの外に流出することはありません。ネットワークから取得されるのは Tesseract 言語モデル (トレーニング済みデータ) だけであり、これは一度ダウンロードされてキャッシュされます。
どの言語がサポートされていますか?
最も一般的な 10 言語: 英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語、中国語 (簡体字)、ロシア語。最高の精度を得るために、抽出する前に文書に一致する言語を選択してください。
手書き文字は読めるのでしょうか?
確実ではありません。 OCR は、印刷および入力されたテキスト用に設計されています。手書き、装飾フォント、非常に低解像度のスキャン、および傾いたページでは、不十分な結果または空の結果が生成されます。これは、このツールだけでなく OCR 自体の制限です。
PDFだけでなく画像も扱えるのでしょうか?
はい。スキャンした PDF と一緒に、PNG または JPG 画像 (領収書、サイン、文書の写真など) をドロップし、同じ方法でそこからテキストを抽出できます。
ページまたはファイルサイズの制限はありますか?
人為的なページ制限やサインアップはありません。複数ページの PDF を実行できます。スキャンが大きくなると認識に時間がかかるため、実質的な制限はデバイスのメモリと待機時間だけです。
最も正確な結果を得るにはどうすればよいですか?
高解像度スキャン (300 DPI 以上) を使用し、ページがまっすぐで明るいことを確認し、正しいドキュメント言語を選択してください。きれいでコントラストの高い白地に黒のテキストが最もよく認識されます。
これが iLovePDF OCR や onlineocr.net よりも優れている点は何ですか?
これらのツールはファイルをサーバーにアップロードし、多くの場合、サインアップやペイウォールの背後で言語、ページ、またはダウンロードをゲートします。このツールはデバイス上でファイルをプライベートに保ち、10 以上の言語をサポートし、PDF と画像の両方で動作し、サインアップやページ制限はありません。