PDF 到文本 — 免费、本地、LLM 就绪
从浏览器中的一个或多个 PDF 中提取文本 - 三种输出样式,无需上传,无需注册
Drop one or more PDFs onto the page. Every file is parsed locally in your browser and returned as a clean .txt — in your choice of three styles: Standard (Unix-style form-feed between pages), Joined (clean flowing text, best for feeding into ChatGPT / Claude / any LLM), or Numbered (each page prefixed with --- Page N --- for easy reading). 100% in-browser — your PDF never leaves your device.
将您的 PDF 放在这里
或
无需上传。一切都在浏览器本地 100% 运行。
如何免费将 PDF 转换为文本
1. 删除一个或多个PDF
将 PDFs 拖到上方的放置区域,或单击进行浏览。每个文件都在本地进行分析——没有任何内容上传到服务器。支持多文件批处理。
2. 选择输出样式
标准(默认,页面之间的 Unix 风格换页)、连接(无分页符,非常适合 ChatGPT / Claude 输入)或编号(每个页面以 --- Page N --- 为前缀)。每张卡片都准确解释了 .txt 将包含的内容。
3. 转换
单击转换为文本。每个页面的文本层都会被提取并流式传输到纯 UTF-8 .txt 文件中。即使是 1000 页的 PDFs 通常也会在几秒钟内完成。
4.单独下载
就绪屏幕列出了每个 PDF 的 .txt 作为其自己的下载。没有 ZIP,没有档案 - 只有干净的每个文件按钮,与压缩流的形状相同。
为什么使用我们的免费 PDF 到文本转换器?
真正自由,永远
无需试用,无隐藏付费专区,无按文件收费,无每日任务限制。从任意数量的 PDF 中提取文本。该服务受广告支持,因此对所有人免费。
一键准备好法学硕士
选择加入模式,输出会被预先格式化,以便粘贴到 ChatGPT、Claude、Gemini 或任何具有文本输入的 AI 中。没有浪费标记的换页符,没有令标记生成器感到困惑的奇怪换行符——只有干净的段落。
多文件批处理
一次掉落 10、50、200 个 PDF。每一个都成为以源命名的自己的 .txt 文件。非常适合研究工作流程、合规性审查以及任何需要同时从多个文档中提取文本的工作。
文件永远不会离开您的设备
所有提取都在您的浏览器本地运行。您的 PDF 不会接触我们的服务器,因为我们没有任何您的文件 - 我们实际上看不到您的文档。
没有帐户,没有电子邮件
立即开始提取。无需注册,无需捕获电子邮件,无需信用卡。桌面软件在“免费试用”之前的工作方式。
无文件大小上限
文本提取是一种廉价的计算——无需限制输入大小。在典型的笔记本电脑上,2GB PDF 的 10,000 页文本可在不到一分钟内提取出来。
无水印
.txt 仅包含 PDF 中的内容。没有“转换为...”页眉,没有页脚链接,没有品牌。
离线工作
加载此页面后,您可以断开与互联网的连接,并且提取器仍然可以工作。非常适合您宁愿在没有网络的情况下处理的机密 PDFs。
三种输出样式的解释
标准 — Unix 默认值
Each page's text is followed by a form-feed character (\f, ASCII 12) before the next page begins. This is exactly what the command-line pdftotext utility produces — so anything downstream (Python scripts, awk pipelines, older text editors) treats the output identically. Pick this when you're replacing a pdftotext run.
已加入 — 用于 LLM 输入
Every page break is removed. Pages are separated by a blank line, not a form-feed. The result is one flowing text — ideal for pasting into ChatGPT / Claude / Gemini / any LLM, because those models don't parse \f usefully and each one of those characters costs a token.
编号 — 供人类阅读
Each page is prefixed with --- Page N --- on its own line so you can navigate the .txt in a regular text editor and still see where one page ends and the next begins. Useful for reviewing extracted text manually, or attaching text alongside the original PDF for reference.
重要提示:扫描的 PDFs 需要 OCR
If your PDF is a scan — pure images of text with no embedded text layer — this converter will return nothing (or very little). We extract the text that's already in the PDF. Converting images of text to text requires OCR (optical character recognition), which needs a 2MB+ library and deserves its own dedicated tool. We're honest about that limit instead of silently running a weak OCR and returning garbage. To test: open your PDF in any viewer and try selecting text with your mouse. If text highlights, this converter will extract it. If the page highlights as one giant image, you need OCR.
PDF Edit 与 FreeConvert、PDF2Go、Smallpdf、pdftotext.com
| 功能 | PDF Edit | FreeConvert | PDF2Go | Smallpdf | pdftotext.com |
|---|---|---|---|---|---|
| 文件上传到服务器? | No — 100% local | 是的 | 是的 | 是的 | 是的 |
| 多文件批处理? | Unlimited | 一次 1 个 | 仅限付费 | 仅限付费 | 一次 1 个 |
| 输出样式? | 3 (Standard / Joined / Numbered) | 1 | 1 | 1 | 1 |
| LLM 准备输出吗? | Yes (Joined) | 不 | 不 | 不 | 不 |
| 需要账户? | Never | 免费等级有限 | 免费等级有限 | 免费等级有限 | 不 |
| 每日文件限制? | None | 5/小时 | 尺寸+瓶盖数 | 2/小时 | 尺寸上限 |
| 输出带水印? | No | 不 | 不 | 不 | 不 |
| 加载后可离线使用? | Yes | 不 | 不 | 不 | 不 |
当您的 PDFs 包含您不想发布的任何内容(草稿、客户简报、内部备忘录、研究数据)时,仅本地和上传优先之间的区别并不是一个方便的功能。这是整个球场。
谁将 PDFs 转换为文本?
将 PDFs 喂给 ChatGPT / Claude
每个 LLM 都有一个文本输入,而不是 PDF 输入。使用连接模式进行转换并将 .txt 粘贴到提示中。代币保持高效;该模型无需任何 PDF 管道即可读取您的文档。
研究与学术评论
一次删除 50 个日志 PDFs,一批将其全部转换,然后 grep / 搜索文本语料库。比在 50 个独立的 PDF 查看器中按 Ctrl+F 快得多。
引用和引用
从合同、报告或文件中提取特定段落,用于电子邮件、备忘录或文章。文本提取保留了准确的措辞,因此引文保持准确。
数据提取与分析
Financial statements, lab reports, tabular data — get the text out and feed it into spreadsheets, Python scripts, or data pipelines. Standard mode (with form-feed) cooperates nicely with awk / sed / CSV parsers.
归档和搜索索引
将文档存档转换为可搜索的文本。使用 ripgrep、Lunr、Meilisearch 或任何全文搜索引擎对 .txt 文件建立索引。 PDF-本机搜索速度慢;文本搜索是即时的。
辅助功能和屏幕阅读器
干净的 .txt 文件是最易于访问的格式 - 每个屏幕阅读器都会以本机方式读取它们,没有 PDF 引擎怪癖。非常适合与视障读者或喜欢语音界面的观众分享内容。
PDF 在任何设备上发送文本
我们的 PDF 到文本转换器适用于任何具有现代浏览器的设备 - Windows、Mac、Linux、Chromebook、iPad、iPhone 和 Android。无需安装软件,无需插件,无需管理员权限。页面加载后,您可以断开与互联网的连接并继续提取 - 一切都在本地运行。
基于浏览器的 PDF 文本提取如何工作?
Your PDF is parsed page by page inside your browser. Every text item is sorted into reading order (top-to-bottom, left-to-right, respecting columns when possible) and serialised as UTF-8 plain text. Page breaks are inserted as form-feed characters (Standard mode), removed entirely (Joined mode), or replaced with --- Page N --- headers (Numbered mode). No server involved at any step — your PDF stays in device memory the whole time.
常见问题解答
如何免费将 PDF 转换为文本?
将您的 PDF 拖放到上面的页面上,选择输出样式,然后单击“转换为文本”。每个 PDF 都成为本地下载的自己的 .txt 文件。
哪种输出风格最适合 ChatGPT / Claude / LLM?
加入了。它去除分页符(浪费标记)并生成清晰流畅的文本,模型可以将其作为自然段落读取。
我的PDF是否已上传到服务器?
不会。提取完全在您的浏览器中运行。您的 PDF 永远不会接触我们的服务器 - 我们没有任何您的文件。
我可以将扫描的 PDF 转换为文本吗?
不是用这个工具。我们提取嵌入在 PDF 中的文本层。扫描(没有文本层的文本图像)需要 OCR,它是一个单独的库,值得拥有自己的工具。测试:尝试在 PDF 查看器中选择文本 - 如果文本突出显示,我们将提取它;如果页面突出显示为一张图像,则需要 OCR。
我可以一次转换多个 PDF 吗?
是的。你想丢多少就丢多少。每个文件都会在就绪屏幕上成为自己的 .txt 文件 - 没有 ZIP,没有档案,只是单独下载。
文本是否保留布局?
大致是的 — 当PDF有适当的文字层时,阅读顺序、换行和列结构会被保留。复杂版面(双栏杂志、复杂表格)有时会出现奇怪的交错。如需完美版面保真度,请改用/pdf-to-word.html。
文件大小有限制吗?
没有人为限制。文本提取很便宜——即使是具有数万页的 2GB PDF 在现代笔记本电脑上通常也能在一分钟内完成。
.txt 是否有水印或出处?
不。只有 PDF 中的文本,没有添加任何内容。没有页眉,没有页脚链接,没有“转换为...”行。
我需要一个帐户吗?
不。没有注册,没有电子邮件,没有验证码,没有信用卡。
可以离线使用吗?
是的,页面加载后。一切都在您的浏览器中运行 - 断开连接并继续解压。
Last updated: