在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
本教程介紹如何使用IronPDF的頂級支持,以程式方式從PDF文件中提取文本和圖像。
高效的 PDF 轉換。 幾乎任何機器能做到的事情,IronPDF 也能做到。 由於這個PDF函式庫,開發人員可以快速地創建、讀取文本內容、寫入、加載以及操作PDF。
IronPDF 使用 Chrome 引擎將 HTML 轉換為 PDF 檔案。適用於 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPDF 也支援 Xamarin、Blazor、Unity 和 HoloLense 應用程式。 IronPDF 支援 Microsoft .NET 和 .NET Core 應用程式(包括 ASP.NET Web 套件和傳統的 Windows 套件)。 IronPDF 可用於製作美觀的 PDF。
IronPDF 可以使用 HTML5、JavaScript、CSS 和圖片創建 PDF。 IronPDF 也具有強大的 HTML 到 PDF 轉換器,能與 PDF 進行整合。 IronPDF 具有強大的 PDF 轉換機制,使用 Chromium 渲染引擎。它也不依賴任何外部來源。
您可以從 CSS 檔案建立 PDF 檔案。
欲了解更多詳情,請造訪此IronPDF 授權資訊頁面以獲取免費限量金鑰和專業版。
IronPDF- 字體格式化
IronPDF 也可以使用 IronPDF 庫來讀取和擷取 PDF 文件中的文本。 以下是一個可用來檢視現有 PDF 文件的 IronPDF 代碼範例。
以下代碼示例展示了第一種方法,僅用幾行就能將所有 PDF 內容獲取為字串。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
以上範例代碼展示了如何使用FromFile
方法從現有文件中讀取 PDF 並將其轉換為 PDF 文件對象。 該對象提供了一個名為ExtractAllText
的方法,可以從PDF中提取純文本並將其轉換為字串。
以下範例程式碼顯示如何使用頁碼從 PDF 文件中提取資料。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
上面的程式碼顯示如何從現有的檔案中讀取 PDF,並使用FromFile
函數將其轉換為 PDF 文件物件。 可以使用此物件訪問 PDF 上的文字和圖像。 該物件提供一個名為ExtractTextFromPage
的方法,允許將頁碼作為參數傳遞,以獲取包含PDF頁面上每個單詞的字串。
以下程式碼顯示如何提取多個頁面之間的數據。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
以上程式碼示範如何使用FromFile
方法從現有檔案中讀取 PDF 並將其轉換為 PDF 文件物件。 此對象允許檢查 PDF 中的文字和圖像。 該物件有一個名為ExtractTextFromPages
的方法,可以通過傳遞頁碼列表作為參數來獲取包含文檔給定頁面上所有文字內容的字串。 左側是來源 PDF,右側是提取的數據。
提取頁面之間的文本輸出
IronPDF 提供了一系列提取圖像的方法,例如:
ExtractBitmapsFromPage
ExtractBitmapsFromPages
ExtractImagesFromPage
ExtractImagesFromPages
ExtractRawImagesFromPage
每個方法都允許從文件的單頁或多頁中提取圖像。
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
上面的代碼演示了如何從現有文件中讀取文檔,並使用FromFile
函數將其轉換為 PDF 文檔對象。 透過將頁面編號列表傳遞給對象的ExtractRawImagesFromPage
方法,可以獲取包含文件中給定頁面上的所有圖片的位元組列表。 使用foreach
迴圈來處理每個位元組,並將其轉換為記憶體流。 然後轉換為位圖,有助於保存圖片。 下圖顯示了上述程式碼的輸出。
從 PDF 輸出提取圖像
若要了解更多關於 IronPDF API 代碼教程的資訊,請參閱IronPDF 文件。 您也可以瀏覽其他教程,以了解如何使用C# 解析PDF文本。
IronPDF 圖書館的開發許可證是免費的。 如果在生產環境中使用IronPDF,可以根據開發者的需求購買不同的授權。 Lite 計劃起價為 $749,且無後續費用。 還提供SaaS和OEM重新分發的替代方案。 所有授權均包含更新、一年的產品支援和永久授權。 它們對於製造、階段性測試和開發也很有用。 這是一個一次性的購買。 有額外的免費限時許可證可供使用。 請造訪完整的 IronPDF 授權資訊,以閱讀 IronPDF 的完整定價和授權細節。 IronPDF 還提供用於防拷貝的免費授權。