使用IRONPDF FOR PYTHON

如何在Python中将PDF转换为文本(教程)

乔尔迪·巴尔迪亚
乔尔迪·巴尔迪亚
2023年六月30日
更新 2024年九月21日
分享:

本文将演示如何使用 IronPDF for Python(最强大的 PDF 库之一)提取 PDF 文档中的任何可用文本。

2.0 如何使用 Python 从 PDF 中提取文本?

  1. 从 Python 下载页面安装最新版本的 Python

  2. 打开任何 Python IDE 工具

  3. 安装 .NET Core 运行时

  4. 安装 IronPDF for Python 库或从 PyPI 下载页面下载

  5. 从 PDF 中提取文本

2.1 什么是 IronPDF for Python?

在 Python 中集成 IronPDF 库非常简单,因为与其他语言相比,Python 是一种更加动态的语言,开发人员可以快速轻松地创建图形用户界面。 该软件预装了大量工具,包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库,所有这些工具都可用于快速、安全地创建完整的图形用户界面。

IronPDF for Python 是一个非常高效的库,尤其适用于网络开发。 出现 Django、Flask 和 Pyramid 等众多 Python 网络开发范例的部分原因就在于此。 这些框架已被许多网站和在线服务使用,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的特点

  • PDF 文件可以从多种来源创建,包括 HTML、HTML5、ASP 和 PHP 网站。 除了 HTML 文件外,还可以将图像文件转换为 PDF
  • IronPDF允许您构建交互式PDF文档,填写并发送交互式表单拆分合并PDF文件,从PDF文件中提取文本和图像,在PDF文件中搜索特定的单词,将PDF页面光栅化为图像,将PDF转换为HTML,并打印PDF文件
  • IronPdf 可以打开 PDF 文件并从 URL 打印。 此外,它还能让用户代理在 HTML 登录表单、代理、cookie、HTTP 标头、自定义网络登录凭证、表单变量和用户代理后面登录。
  • 可以使用 IronPDF 从文件中提取图片。
  • 使用 IronPDF,可以非常轻松地添加页眉和页脚、文本和图片、书签以及水印等内容到文档中。
  • 可以使用 IronPDF 将新文档或现有文档的页面进行组合和分离。
  • 在不使用 Acrobat 浏览器的情况下,可将文档转换为 PDF 对象。
  • 可以使用 CSS 文件制作 PDF 文档。
  • 可以使用媒体类型的 CSS 文件创建文档。

2.3 导入 IronPDF 库

在将使用 IronPDF 的源文件开头包含以下导入语句,以便导入 IronPDF:

from ironpdf import *
PYTHON

2.4 设置许可证密钥(如需要)

虽然 IronPDF for Python 可免费使用,但它会为免费用户的 PDF 文件加上平铺背景的水印。 您必须向该库提供合法的许可证密钥,才能使用 IronPdf 创建无水印的 PDF。 以下代码片段显示了如何使用许可证密钥设置库:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在创建 PDF 文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey 方法应在任何其他代码行之前调用。 要获取免费试用许可证密钥,请访问许可页面

2.5 设置日志文件

名为 "Default "的文本文件可以存储 Custom.log 在 Python 脚本目录下生成的日志信息。 以下代码片段可用于设置LogFilePath属性,并自定义日志文件的名称和位置:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF for Python 库可以将 PDF 页面转换为 PDF 对象,并能从 PDF 文件(其中包括扫描的 PDF 文件)中提取文本。 下面是一个示例,展示了如何使用 IronPDF 阅读现有 PDF。

第一种方法是提取 PDF 中的所有可用文本; 下面提供了代码示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

如上面的代码所示,FromFile方法是一个PDF读取对象,用于加载现有PDF文件并将其转换为PDF文档对象。 该对象可用于阅读 PDF 页面上的文本和图像。 该对象提供了一个名为ExtractAllText的方法,该方法从整个PDF文件中提取每一段文本,并将文本保存在一个可以处理的字符串中。 然后使用print函数显示文本。

如何在Python中将PDF转换为文本(教程),图1:显示文本

显示文本

第二种方法的代码示例可用于从 PDF 文件中逐页提取文本。如下所示。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

FromFile 方法用于从现有文件中加载 PDF 文件并将其转换为 PDF 文件对象,如上面的代码所示。 在 PDF 页面对象上调用的方法ExtractTextFromPage可从 PDF 文件的页面中提取所有文本。必须提供页码作为参数以从该特定页面提取文本。 然后,在提取文本之后,page_text 可以用来保存可以处理的信息。

查看更多示例以从PDF中提取文本。

4.0 结论

IronPdf 库则提供了强大的安全措施,以降低潜在风险。 译文不针对任何一种浏览器,可在所有常用浏览器上运行。 IronPDF 使程序员只需几行代码就能轻松生成和读取 PDF 文件。 IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足不同开发人员的需求。

IronPdf 包括永久许可证、30 天退款保证、一年软件支持和升级选项。 在首次购买后没有额外费用。 这些许可证可用于开发、暂存和生产环境。 了解更多关于产品许可的信息

下载软件产品。

乔尔迪·巴尔迪亚
乔尔迪·巴尔迪亚
软件工程师
Jordi 最擅长 Python、C# 和 C++,当他不在 Iron Software 运用技能时,他会进行游戏编程。作为产品测试、产品开发和研究的负责人之一,Jordi 为持续的产品改进增添了极大的价值。多样化的经验让他充满挑战和参与感,他说这是他在 Iron Software 工作中最喜欢的方面之一。Jordi 在佛罗里达州迈阿密长大,并在佛罗里达大学学习计算机科学和统计学。
< 前一页
如何在 Python 中查看 PDF 文件

准备开始了吗? 版本: 2025.3 刚刚发布

查看许可证 >