Question 1

什么是 OCR？该工具有什么作用？

Accepted Answer

OCR（光学字符识别）将扫描的 PDF 或照片中的文本图片转换为真实的、可选择的字符。该工具在 PDF 或图像的每一页上运行 OCR，并为您提供提取的文本以将其复制或下载为 .txt 文件。

Question 2

我的文件是否已上传到服务器？

Accepted Answer

不会。识别 100% 在您的浏览器内进行，因此您的 PDF 或图像永远不会离开您的设备。唯一从网络获取的是 Tesseract 语言模型（训练数据），它被下载一次并缓存。

Question 3

支持哪些语言？

Accepted Answer

十种最常见的语言：英语、西班牙语、法语、德语、葡萄牙语、意大利语、印地语、阿拉伯语、中文（简体）和俄语。在提取之前选择与您的文档匹配的语言，以获得最佳准确性。

Question 4

可以读取手写体吗？

Accepted Answer

不可靠。 OCR 专为打印和打字文本而设计。手写、装饰字体、极低分辨率的扫描和倾斜的页面都会产生较差或空洞的结果——这是 OCR 本身的限制，而不仅仅是这个工具的限制。

Question 5

它是否也适用于图像，而不仅仅是 PDF？

Accepted Answer

是的。除了扫描的 PDF 之外，您还可以放置 PNG 或 JPG 图像（例如收据、标志或文档的照片），并以相同的方式从中提取文本。

Question 6

是否有页面或文件大小限制？

Accepted Answer

没有人为的页面限制或注册。您可以运行多页 PDF；唯一的实际限制是您设备的内存以及您想要等待的时间，因为较大的扫描需要更长的时间来识别。

Question 7

我怎样才能得到最准确的结果？

Accepted Answer

使用高分辨率扫描（300 DPI 或更高），确保页面平直且光线充足，并选择正确的文档语言。干净、高对比度的黑白文本识别效果最好。

Question 8

这比 iLovePDF OCR 或 onlineocr.net 更好吗？

Accepted Answer

这些工具将您的文件上传到他们的服务器，并且通常会在注册或付费墙后控制语言、页面或下载。该工具可让您的文件在设备上保持私密性，支持 10 多种语言，适用于 PDF 和图像，并且没有注册或页数限制。

文字识别 PDF

Recognition options