文字识别 PDF
将扫描的 PDF 和照片直接在浏览器中转换为可选择、可复制的文本。
Drag & drop a scanned PDF or image here, or click to choose. OCR runs entirely in your browser — your file is never uploaded.
Recognition options
Private by design: the language model (trained data) is downloaded once from the CDN — your document stays on this device.
OCR PDF 读取扫描的 PDF 和图像文件 (PNG/JPG) 并提取其中的文本,以便您可以复制、编辑和搜索。识别完全使用 Tesseract 在浏览器中运行,因此您的文档永远不会离开您的设备 - 仅下载一次语言模型。从英语、西班牙语、法语、德语、葡萄牙语、意大利语、印地语、阿拉伯语、中文和俄语中进行选择,然后复制结果或将其另存为 .txt 文件。为了获得最佳准确性,请使用清晰、高分辨率的扫描;印刷文本的识别效果比手写文本要好得多。
常见问题解答
什么是 OCR?该工具有什么作用?
OCR(光学字符识别)将扫描的 PDF 或照片中的文本图片转换为真实的、可选择的字符。该工具在 PDF 或图像的每一页上运行 OCR,并为您提供提取的文本以将其复制或下载为 .txt 文件。
我的文件是否已上传到服务器?
不会。识别 100% 在您的浏览器内进行,因此您的 PDF 或图像永远不会离开您的设备。唯一从网络获取的是 Tesseract 语言模型(训练数据),它被下载一次并缓存。
支持哪些语言?
十种最常见的语言:英语、西班牙语、法语、德语、葡萄牙语、意大利语、印地语、阿拉伯语、中文(简体)和俄语。在提取之前选择与您的文档匹配的语言,以获得最佳准确性。
可以读取手写体吗?
不可靠。 OCR 专为打印和打字文本而设计。手写、装饰字体、极低分辨率的扫描和倾斜的页面都会产生较差或空洞的结果——这是 OCR 本身的限制,而不仅仅是这个工具的限制。
它是否也适用于图像,而不仅仅是 PDF?
是的。除了扫描的 PDF 之外,您还可以放置 PNG 或 JPG 图像(例如收据、标志或文档的照片),并以相同的方式从中提取文本。
是否有页面或文件大小限制?
没有人为的页面限制或注册。您可以运行多页 PDF;唯一的实际限制是您设备的内存以及您想要等待的时间,因为较大的扫描需要更长的时间来识别。
我怎样才能得到最准确的结果?
使用高分辨率扫描(300 DPI 或更高),确保页面平直且光线充足,并选择正确的文档语言。干净、高对比度的黑白文本识别效果最好。
这比 iLovePDF OCR 或 onlineocr.net 更好吗?
这些工具将您的文件上传到他们的服务器,并且通常会在注册或付费墙后控制语言、页面或下载。该工具可让您的文件在设备上保持私密性,支持 10 多种语言,适用于 PDF 和图像,并且没有注册或页数限制。