使用 IRONPDF

如何在 VB.NET 中解析 PDF 檔案

喬迪·巴迪亞
喬迪·巴迪亞
2023年4月19日
已更新 2024年3月10日
分享:

本教程介紹如何使用IronPDF的頂級支持,以程式方式從PDF文件中提取文本和圖像。

IronPDF

功能

高效的 PDF 轉換。 幾乎任何機器能做到的事情,IronPDF 也能做到。 由於這個PDF函式庫,開發人員可以快速地創建、讀取文本內容、寫入、加載以及操作PDF。

IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 檔案。適用於 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLense 應用程式。 IronPDF 支援 Microsoft .NET 和 .NET Core 應用程式(包括 ASP.NET Web 套件和傳統的 Windows 套件)。 IronPDF 可用於製作美觀的 PDF。

IronPDF 可以使用 HTML5、JavaScript、CSS 和圖片創建 PDF。 IronPDF 也具有強大的 HTML 到 PDF 轉換器,能與 PDF 進行整合。 IronPDF 具有強大的 PDF 轉換機制,使用 Chromium 渲染引擎。它也不依賴任何外部來源。

  • PDF 圖像可以從多種來源建立,包括 HTML、HTML5、ASPX 和 Razor/MVC View。 HTML 和圖像資產均可轉換為 PDF。
  • 可用於處理互動式PDF的工具包括填写並提交互動式表單
  • 合併和拆分PDF檔從PDF檔提取文字和圖片,在PDF檔中搜尋文字,將PDF點陣化為圖片,更改字型大小和轉換PDF檔。
  • 它允許使用者代理、代理、Cookie、HTTP 標頭和表單變數來驗證 HTML 登入表單。
  • IronPDF 透過提供用戶名稱和密碼,使訪問受保護的文件成為可能。
  • IronPDF 是一個可以閱讀 PDF 文件中的文字並填補其中空白的程式。
  • 允許添加文字、圖像、書籤水印等。
  • 您可以從 CSS 檔案建立 PDF 檔案。

    欲了解更多詳情,請造訪此IronPDF 授權資訊頁面以獲取免費限量金鑰和專業版。

    如何在 VB.NET 中解析 PDF 文件,圖 1:IronPDF - 字體格式

    IronPDF- 字體格式化

從 PDF 文件中提取文字

IronPDF 也可以使用 IronPDF 庫來讀取和擷取 PDF 文件中的文本。 以下是一個可用來檢視現有 PDF 文件的 IronPDF 代碼範例。

從所有頁面提取文本

以下代碼示例展示了第一種方法,僅用幾行就能將所有 PDF 內容獲取為字串。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

以上範例代碼展示了如何使用FromFile方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件對象。 該對象提供了一個名為ExtractAllText的方法,可以從PDF中提取純文本並將其轉換為字串。

按頁碼提取文本

以下範例程式碼顯示如何使用頁碼從 PDF 文件中提取資料。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

上面的程式碼顯示如何從現有的檔案中讀取 PDF,並使用FromFile函數將其轉換為 PDF 文件物件。 可以使用此物件訪問 PDF 上的文字和圖像。 該物件提供一個名為ExtractTextFromPage的方法,允許將頁碼作為參數傳遞,以獲取包含PDF頁面上每個單詞的字串。

提取頁面之間的文本

以下程式碼顯示如何提取多個頁面之間的數據。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

以上程式碼示範如何使用FromFile方法從現有檔案中讀取 PDF 並將其轉換為 PDF 文件物件。 此對象允許檢查 PDF 中的文字和圖像。 該物件有一個名為ExtractTextFromPages的方法,可以通過傳遞頁碼列表作為參數來獲取包含文檔給定頁面上所有文字內容的字串。 左側是來源 PDF,右側是提取的數據。

如何在 VB.NET 中解析 PDF 文件,圖 2:提取頁面之間的文本輸出

提取頁面之間的文本輸出

從 PDF 文件提取圖片

IronPDF 提供了一系列提取圖像的方法,例如:

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

上面的代碼演示了如何從現有文件中讀取文檔,並使用FromFile 函數將其轉換為 PDF 文檔對象。 透過將頁面編號列表傳遞給對象的ExtractRawImagesFromPage方法,可以獲取包含文件中給定頁面上的所有圖片的位元組列表。 使用foreach迴圈來處理每個位元組,並將其轉換為記憶體流。 然後轉換為位圖,有助於保存圖片。 下圖顯示了上述程式碼的輸出。

如何在 VB.NET 中解析 PDF 文件,圖 3:從 PDF 輸出中提取圖像

從 PDF 輸出提取圖像

若要了解更多關於 IronPDF API 代碼教程的資訊,請參閱IronPDF 文件。 您也可以瀏覽其他教程,以了解如何使用C# 解析PDF文本

結論

IronPDF 圖書館的開發許可證是免費的。 如果在生產環境中使用IronPDF,可以根據開發者的需求購買不同的授權。 Lite 計劃起價為 $749,且無後續費用。 還提供SaaS和OEM重新分發的替代方案。 所有授權均包含更新、一年的產品支援和永久授權。 它們對於製造、階段性測試和開發也很有用。 這是一個一次性的購買。 有額外的免費限時許可證可供使用。 請造訪完整的 IronPDF 授權資訊,以閱讀 IronPDF 的完整定價和授權細節。 IronPDF 還提供用於防拷貝的免費授權。

喬迪·巴迪亞
軟體工程師
Jordi 最擅長 Python、C# 和 C++,當他不在 Iron Software 發揮技能時,他會進行遊戲編程。他負責產品測試、產品開發和研究,為持續產品改進增添了巨大的價值。多樣化的經驗使他感到挑戰和投入,他說這是與 Iron Software 合作的最喜歡的方面之一。Jordi 在佛羅里達州邁阿密長大,並在佛羅里達大學學習計算機科學和統計學。
< 上一頁
如何解除 PDF 安全性(初學者教程)
下一個 >
如何在 .NET 中將 PDF 轉換為 JPG