使用IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

查克尼思·賓
查克尼思·賓
2023年6月30日
已更新 2024年9月21日
分享:

本文將展示如何使用IronPDF for Python,作為最強大的PDF程式庫之一,從PDF文件中提取任何可用的文字。

2.0 如何使用 Python 從 PDF 中提取文本?

  1. 從 Python 下載頁面安裝最新版本的 Python

  2. 打開任何適用於 Python 的 IDE 工具

  3. 安裝 .NET Core 運行時

  4. 安裝 IronPDF for Python 程式庫或從 PyPI 下載頁面下載

  5. 從 PDF 中提取文本

2.1 什麼是 IronPDF for Python?

將 IronPDF 庫整合到 Python 中是非常簡單的,因為相較於其他語言,它是一種類型更為動態的語言,並且使開發者能夠快速且輕鬆地創建圖形用戶界面。 它擁有大量預裝工具,包括 PyQT、wxWidgets、kivy 和許多其他套件和庫,所有這些都可以用來快速安全地創建一個完整的 GUI。

IronPDF for Python 是一個非常高效的函式庫,特別適合網頁開發使用。 這部分歸因於眾多 Python 網頁開發範式如 Django、Flask 和 Pyramid 的可用性。 這些框架被眾多網站和在線服務使用,包括Reddit、Mozilla和Spotify。

2.2 IronPDF 的功能

  • PDF 檔案可以從各種來源建立,包括 HTML、HTML5、ASP 和 PHP 網站。 除了 HTML 文件,也可以將圖像文件轉換為 PDF
  • IronPDF 允許您構建互動式 PDF 文件,填寫和發送互動式表單拆分合併 PDF 文件,從 PDF 文件中提取文本和圖像,在 PDF 文件中搜索特定字詞,將 PDF 頁面光柵化為圖像,將 PDF 轉換為 HTML,以及打印 PDF 文件
  • IronPDF 可以打開 PDF 文件並從 URL 列印。 此外,它允許用戶代理在 HTML 登入表單、代理伺服器、Cookie、HTTP 標頭、自訂網路登入憑證、表單變數和用戶代理之後登入。
  • 可以使用IronPDF從文件中提取圖像。
  • 使用 IronPDF,將標頭和頁尾、文字和圖片、書籤和浮水印等添加到文件中非常簡單。
  • 可以使用 IronPDF 在新文件或現有文件中合併和分離頁面。
  • 不需要使用 Acrobat 檢視器,文件即可轉換為 PDF 物件。
  • 可以使用 CSS 文件製作 PDF 文件。
  • 可以使用媒體類型的 CSS 檔案創建文件。

2.3 匯入 IronPDF 庫

在要使用IronPDF的源文件開頭包含以下導入語句以導入IronPDF:

from ironpdf import *
PYTHON

2.4 設定許可證密鑰(如需)

儘管 IronPDF for Python 可免費使用,但對於免費用戶,它會在 PDF 文件中添加帶有平鋪背景的浮水印。 您必須提供合法的授權密鑰才能使用 IronPDF 進行不帶浮水印的 PDF 創建。 如何使用授權金鑰設置庫,如以下程式碼片段所示:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在建立 PDF 文件或更改其內容之前,請確保已配置授權金鑰。 應在任何其他代碼行之前調用LicenseKey方法。 要獲取免費試用許可證金鑰,請訪問許可證頁面

2.5 設定日誌文件

名為「Default」的文字檔可以存儲在 Python 腳本目錄中的 Custom.log 產生的日誌消息。 以下程式碼片段可用於設置LogFilePath屬性並自訂日誌檔案的名稱和位置:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF for Python 庫可以將 PDF 頁面轉換為 PDF 物件,並且能夠從 PDF 文件中提取文字,這包括掃描的 PDF 文件。 以下是一個使用 IronPDF 讀取現有 PDF 的範例。

第一種方法是提取 PDF 中的所有可用文本; 以下提供了一段範例程式碼。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

如上面的代碼所示,FromFile 方法是一個 PDF 讀取器對象,用於加載現有的 PDF 文件並將其轉換為 PDF 文件對象。 此物件可用於讀取 PDF 頁面上的文本和圖像。 該對象提供了一個名為ExtractAllText的方法,該方法從整個 PDF 文件中提取每一段文字,並將文本保存在可處理的字符串中。 然後使用print函數顯示文本。

如何在 Python 中將 PDF 轉換為文本(教程),圖 1:顯示文本

顯示文字

下面提供了第二種方法的程式碼範例,可以逐頁從 PDF 文件中提取文字。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

FromFile 方法用於從現有文件中加載 PDF 文件,並將其轉換為 PDF 文件對象,如上面的代碼所示。 在 PDF 頁面物件上的方法稱為 ExtractTextFromPage,它從 PDF 文件中的某頁提取所有文字。需提供頁碼作為參數,以從該特定頁面提取文字。 然後,在提取文本後,page_text 可以用來存儲可處理的信息。

查看更多範例 ,以從 PDF 中提取文字。

4.0 結論

相比之下,IronPDF 庫提供強大的安全措施以降低潛在風險。 它並非專為某一種瀏覽器設計,且可與所有常用瀏覽器配合使用。 IronPDF 允許程式設計師僅需幾行程式碼即可輕鬆生成和讀取 PDF 文件。 IronPDF 庫提供多種授權選項,包括免費的開發者授權和可供購買的額外開發授權,以滿足不同開發者的需求。

IronPDF 包括永久授權、30 天退款保證、一年的軟體支援和升級選項。 初次購買後沒有其他額外費用。 這些授權可用於開發、測試和生產環境。 瞭解更多關於產品授權的資訊

下載軟體產品。

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
如何在 Python 中查看 PDF 文件

準備開始了嗎? 版本: 2025.4 剛剛發布

查看許可證 >