使用 IRONPDF

如何在 VB.NET 中解析 PDF 檔案

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

奇佩戈·卡林达

2023年4月19日

已更新 2024年3月10日

本教程介紹如何使用IronPDF的頂級支持，以程式方式從PDF文件中提取文本和圖像。

如何在 VB.NET 中解析 PDF 檔案

下載 IronPDF C# 函式庫來解析 PDF 文件
使用 FromFile 方法在 VB.NET 中解析 PDF 文件
使用ExtractAllText方法從開啟的PDF中提取文本
使用 ExtractTextFromPages 方法從特定頁面中提取文本
使用ExtractRawImagesFromPage方法從已開啟的PDF中提取圖像

IronPDF

功能

高效的 PDF 轉換。幾乎任何機器能做到的事情，IronPDF 也能做到。由於這個PDF函式庫，開發人員可以快速地創建、讀取文本內容、寫入、加載以及操作PDF。

IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 檔案。適用於 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLense 應用程式。 IronPDF 支援 Microsoft .NET 和 .NET Core 應用程式（包括 ASP.NET Web 套件和傳統的 Windows 套件）。 IronPDF 可用於製作美觀的 PDF。

IronPDF 可以使用 HTML5、JavaScript、CSS 和圖片創建 PDF。 IronPDF 也具有強大的 HTML 到 PDF 轉換器，能與 PDF 進行整合。 IronPDF 具有強大的 PDF 轉換機制，使用 Chromium 渲染引擎。它也不依賴任何外部來源。

PDF 圖像可以從多種來源建立，包括 HTML、HTML5、ASPX 和 Razor/MVC View。 HTML 和圖像資產均可轉換為 PDF。
可用於處理互動式PDF的工具包括填写並提交互動式表單。
合併和拆分PDF檔，從PDF檔提取文字和圖片，在PDF檔中搜尋文字，將PDF點陣化為圖片，更改字型大小和轉換PDF檔。
它允許使用者代理、代理、Cookie、HTTP 標頭和表單變數來驗證 HTML 登入表單。
IronPDF 透過提供用戶名稱和密碼，使訪問受保護的文件成為可能。
IronPDF 是一個可以閱讀 PDF 文件中的文字並填補其中空白的程式。
允許添加文字、圖像、書籤、水印等。
您可以從 CSS 檔案建立 PDF 檔案。
欲了解更多詳情，請造訪此IronPDF 授權資訊頁面以獲取免費限量金鑰和專業版。
IronPDF- 字體格式化

從 PDF 文件中提取文字

IronPDF 也可以使用 IronPDF 庫來讀取和擷取 PDF 文件中的文本。以下是一個可用來檢視現有 PDF 文件的 IronPDF 代碼範例。

從所有頁面提取文本

以下代碼示例展示了第一種方法，僅用幾行就能將所有 PDF 內容獲取為字串。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

VB.NET

以上範例代碼展示了如何使用FromFile方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件對象。該對象提供了一個名為ExtractAllText的方法，可以從PDF中提取純文本並將其轉換為字串。

按頁碼提取文本

以下範例程式碼顯示如何使用頁碼從 PDF 文件中提取資料。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

VB.NET

上面的程式碼顯示如何從現有的檔案中讀取 PDF，並使用FromFile函數將其轉換為 PDF 文件物件。可以使用此物件訪問 PDF 上的文字和圖像。該物件提供一個名為ExtractTextFromPage的方法，允許將頁碼作為參數傳遞，以獲取包含PDF頁面上每個單詞的字串。

提取頁面之間的文本

以下程式碼顯示如何提取多個頁面之間的數據。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

VB.NET

以上程式碼示範如何使用FromFile方法從現有檔案中讀取 PDF 並將其轉換為 PDF 文件物件。此對象允許檢查 PDF 中的文字和圖像。該物件有一個名為ExtractTextFromPages的方法，可以通過傳遞頁碼列表作為參數來獲取包含文檔給定頁面上所有文字內容的字串。左側是來源 PDF，右側是提取的數據。

如何在 VB.NET 中解析 PDF 文件，圖 2：提取頁面之間的文本輸出

提取頁面之間的文本輸出

從 PDF 文件提取圖片

IronPDF 提供了一系列提取圖像的方法，例如：

ExtractBitmapsFromPage
ExtractBitmapsFromPages
ExtractImagesFromPage
ExtractImagesFromPages
ExtractRawImagesFromPage
ExtractRawImagesFromPages
每個方法都允許從文件的單頁或多頁中提取圖像。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

VB.NET

上面的代碼演示了如何從現有文件中讀取文檔，並使用FromFile 函數將其轉換為 PDF 文檔對象。透過將頁面編號列表傳遞給對象的ExtractRawImagesFromPage方法，可以獲取包含文件中給定頁面上的所有圖片的位元組列表。使用foreach迴圈來處理每個位元組，並將其轉換為記憶體流。然後轉換為位圖，有助於保存圖片。下圖顯示了上述程式碼的輸出。

如何在 VB.NET 中解析 PDF 文件，圖 3：從 PDF 輸出中提取圖像

從 PDF 輸出提取圖像

若要了解更多關於 IronPDF API 代碼教程的資訊，請參閱IronPDF 文件。您也可以瀏覽其他教程，以了解如何使用C# 解析PDF文本。

結論

IronPDF 圖書館的開發許可證是免費的。如果在生產環境中使用IronPDF，可以根據開發者的需求購買不同的授權。 Lite 計劃起價為 $749，且無後續費用。還提供SaaS和OEM重新分發的替代方案。所有授權均包含更新、一年的產品支援和永久授權。它們對於製造、階段性測試和開發也很有用。這是一個一次性的購買。有額外的免費限時許可證可供使用。請造訪完整的 IronPDF 授權資訊，以閱讀 IronPDF 的完整定價和授權細節。 IronPDF 還提供用於防拷貝的免費授權。

奇佩戈·卡林达

立即與工程團隊聊天

軟體工程師

Chipego 擁有天生的傾聽技能，這幫助他理解客戶問題，並提供智能解決方案。他在獲得信息技術理學學士學位後，于 2023 年加入 Iron Software 團隊。IronPDF 和 IronOCR 是 Chipego 專注的兩個產品，但隨著他每天找到新的方法來支持客戶，他對所有產品的了解也在不斷增長。他喜歡在 Iron Software 的協作生活，公司內的團隊成員從各自不同的經歷中共同努力，創造出有效的創新解決方案。當 Chipego 離開辦公桌時，他常常享受讀好書或踢足球的樂趣。

< 上一頁
如何解除 PDF 安全性（初學者教程）

下一個 >
如何在 .NET 中將 PDF 轉換為 JPG