from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本（教程）

查克尼思·賓

2023年6月30日

已更新 2024年9月21日

本文將展示如何使用IronPDF for Python，作為最強大的PDF程式庫之一，從PDF文件中提取任何可用的文字。

2.0 如何使用 Python 從 PDF 中提取文本？

從 Python 下載頁面安裝最新版本的 Python
打開任何適用於 Python 的 IDE 工具
安裝 .NET Core 運行時
安裝 IronPDF for Python 程式庫或從 PyPI 下載頁面下載
從 PDF 中提取文本

2.1 什麼是 IronPDF for Python？

將 IronPDF 庫整合到 Python 中是非常簡單的，因為相較於其他語言，它是一種類型更為動態的語言，並且使開發者能夠快速且輕鬆地創建圖形用戶界面。它擁有大量預裝工具，包括 PyQT、wxWidgets、kivy 和許多其他套件和庫，所有這些都可以用來快速安全地創建一個完整的 GUI。

IronPDF for Python 是一個非常高效的函式庫，特別適合網頁開發使用。這部分歸因於眾多 Python 網頁開發範式如 Django、Flask 和 Pyramid 的可用性。這些框架被眾多網站和在線服務使用，包括Reddit、Mozilla和Spotify。

2.2 IronPDF 的功能

PDF 檔案可以從各種來源建立，包括 HTML、HTML5、ASP 和 PHP 網站。除了 HTML 文件，也可以將圖像文件轉換為 PDF。
IronPDF 允許您構建互動式 PDF 文件，填寫和發送互動式表單，拆分和合併 PDF 文件，從 PDF 文件中提取文本和圖像，在 PDF 文件中搜索特定字詞，將 PDF 頁面光柵化為圖像，將 PDF 轉換為 HTML，以及打印 PDF 文件。
IronPDF 可以打開 PDF 文件並從 URL 列印。此外，它允許用戶代理在 HTML 登入表單、代理伺服器、Cookie、HTTP 標頭、自訂網路登入憑證、表單變數和用戶代理之後登入。
可以使用IronPDF從文件中提取圖像。
使用 IronPDF，將標頭和頁尾、文字和圖片、書籤和浮水印等添加到文件中非常簡單。
可以使用 IronPDF 在新文件或現有文件中合併和分離頁面。
不需要使用 Acrobat 檢視器，文件即可轉換為 PDF 物件。
可以使用 CSS 文件製作 PDF 文件。
可以使用媒體類型的 CSS 檔案創建文件。

2.3 匯入 IronPDF 庫

在要使用IronPDF的源文件開頭包含以下導入語句以導入IronPDF：

from ironpdf import *

from ironpdf import *

PYTHON

2.4 設定許可證密鑰（如需）

儘管 IronPDF for Python 可免費使用，但對於免費用戶，它會在 PDF 文件中添加帶有平鋪背景的浮水印。您必須提供合法的授權密鑰才能使用 IronPDF 進行不帶浮水印的 PDF 創建。如何使用授權金鑰設置庫，如以下程式碼片段所示：

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

PYTHON

在建立 PDF 文件或更改其內容之前，請確保已配置授權金鑰。應在任何其他代碼行之前調用LicenseKey方法。要獲取免費試用許可證金鑰，請訪問許可證頁面。

2.5 設定日誌文件

名為「Default」的文字檔可以存儲在 Python 腳本目錄中的 Custom.log 產生的日誌消息。以下程式碼片段可用於設置LogFilePath屬性並自訂日誌檔案的名稱和位置：

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF for Python 庫可以將 PDF 頁面轉換為 PDF 物件，並且能夠從 PDF 文件中提取文字，這包括掃描的 PDF 文件。以下是一個使用 IronPDF 讀取現有 PDF 的範例。

第一種方法是提取 PDF 中的所有可用文本；以下提供了一段範例程式碼。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

如上面的代碼所示，FromFile 方法是一個 PDF 讀取器對象，用於加載現有的 PDF 文件並將其轉換為 PDF 文件對象。此物件可用於讀取 PDF 頁面上的文本和圖像。該對象提供了一個名為ExtractAllText的方法，該方法從整個 PDF 文件中提取每一段文字，並將文本保存在可處理的字符串中。然後使用print函數顯示文本。

如何在 Python 中將 PDF 轉換為文本（教程），圖 1：顯示文本

顯示文字

下面提供了第二種方法的程式碼範例，可以逐頁從 PDF 文件中提取文字。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

PYTHON

FromFile 方法用於從現有文件中加載 PDF 文件，並將其轉換為 PDF 文件對象，如上面的代碼所示。在 PDF 頁面物件上的方法稱為 ExtractTextFromPage，它從 PDF 文件中的某頁提取所有文字。需提供頁碼作為參數，以從該特定頁面提取文字。然後，在提取文本後，page_text 可以用來存儲可處理的信息。

查看更多範例，以從 PDF 中提取文字。

4.0 結論

相比之下，IronPDF 庫提供強大的安全措施以降低潛在風險。它並非專為某一種瀏覽器設計，且可與所有常用瀏覽器配合使用。 IronPDF 允許程式設計師僅需幾行程式碼即可輕鬆生成和讀取 PDF 文件。 IronPDF 庫提供多種授權選項，包括免費的開發者授權和可供購買的額外開發授權，以滿足不同開發者的需求。

IronPDF 包括永久授權、30 天退款保證、一年的軟體支援和升級選項。初次購買後沒有其他額外費用。這些授權可用於開發、測試和生產環境。瞭解更多關於產品授權的資訊。

下載軟體產品。

查克尼思·賓

立即與工程團隊聊天

軟體工程師

Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識，協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。

< 上一頁
如何在 Python 中查看 PDF 文件