在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
本文将演示如何使用 IronPDF for Python(最强大的 PDF 库之一)提取 PDF 文档中的任何可用文本。
打开任何 Python IDE 工具
安装 .NET Core 运行时
安装 IronPDF for Python 库或从 PyPI 下载页面下载
在 Python 中集成 IronPDF 库非常简单,因为与其他语言相比,Python 是一种更加动态的语言,开发人员可以快速轻松地创建图形用户界面。 该软件预装了大量工具,包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库,所有这些工具都可用于快速、安全地创建完整的图形用户界面。
IronPDF for Python 是一个非常高效的库,尤其适用于网络开发。 出现 Django、Flask 和 Pyramid 等众多 Python 网络开发范例的部分原因就在于此。 这些框架已被许多网站和在线服务使用,包括 Reddit、Mozilla 和 Spotify。
在将使用 IronPDF 的源文件开头包含以下导入语句,以便导入 IronPDF:
from ironpdf import *
虽然 IronPDF for Python 可免费使用,但它会为免费用户的 PDF 文件加上平铺背景的水印。 您必须向该库提供合法的许可证密钥,才能使用 IronPdf 创建无水印的 PDF。 以下代码片段显示了如何使用许可证密钥设置库:
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
在创建 PDF 文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey
方法应在任何其他代码行之前调用。 要获取免费试用许可证密钥,请访问许可页面。
名为 "Default "的文本文件可以存储 Custom.log 在 Python 脚本目录下生成的日志信息。 以下代码片段可用于设置LogFilePath
属性,并自定义日志文件的名称和位置:
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
IronPDF for Python 库可以将 PDF 页面转换为 PDF 对象,并能从 PDF 文件(其中包括扫描的 PDF 文件)中提取文本。 下面是一个示例,展示了如何使用 IronPDF 阅读现有 PDF。
第一种方法是提取 PDF 中的所有可用文本; 下面提供了代码示例。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
如上面的代码所示,FromFile
方法是一个PDF读取对象,用于加载现有PDF文件并将其转换为PDF文档对象。 该对象可用于阅读 PDF 页面上的文本和图像。 该对象提供了一个名为ExtractAllText
的方法,该方法从整个PDF文件中提取每一段文本,并将文本保存在一个可以处理的字符串中。 然后使用print
函数显示文本。
显示文本
第二种方法的代码示例可用于从 PDF 文件中逐页提取文本。如下所示。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
FromFile
方法用于从现有文件中加载 PDF 文件并将其转换为 PDF 文件对象,如上面的代码所示。 在 PDF 页面对象上调用的方法ExtractTextFromPage
可从 PDF 文件的页面中提取所有文本。必须提供页码作为参数以从该特定页面提取文本。 然后,在提取文本之后,page_text
可以用来保存可以处理的信息。
查看更多示例以从PDF中提取文本。
IronPdf 库则提供了强大的安全措施,以降低潜在风险。 译文不针对任何一种浏览器,可在所有常用浏览器上运行。 IronPDF 使程序员只需几行代码就能轻松生成和读取 PDF 文件。 IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足不同开发人员的需求。
IronPdf 包括永久许可证、30 天退款保证、一年软件支持和升级选项。 在首次购买后没有额外费用。 这些许可证可用于开发、暂存和生产环境。 了解更多关于产品许可的信息。
下载软件产品。