使用IRONPDF

如何在VB.NET中解析PDF文件

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

奇佩戈-卡琳达

2023年四月19日

更新 2024年三月10日

本教程介绍如何利用 IronPDF 的一流支持，以编程方式从 PDF 文件中提取文本和图像。

如何在VB.NET中解析PDF文件

下载 IronPDF C# 库以解析 PDF 文件
利用FromFile方法在VB.NET中解析PDF文件
使用ExtractAllText方法从打开的PDF中提取文本
使用 ExtractTextFromPages 方法从特定页面中提取文本
使用ExtractRawImagesFromPage方法从已打开的PDF中提取图像

IronPDF

特点

高效的 PDF 转换。机器能做的事情，IronPDF 几乎都能做到。有了这个 PDF 库，开发人员可以快速创建、阅读文本内容、编写、加载和操作 PDF。

IronPdf 借助 Chrome 引擎将 HTML 转换为 PDF 记录。以及 Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms 和 WPF。 IronPdf 还支持 Xamarin、Blazor、Unity 和 HoloLense 应用程序。 IronPDF 支持 Microsoft .NET 和 .NET Core 应用程序（包括 ASP.NET Web 包和常规 Windows 包）。 IronPDF 可用于制作美观的 PDF。

IronPdf 可以使用 HTML5、JavaScript、CSS 和图像创建 PDF。 IronPDF 还有一个功能强大的 HTML 到 PDF 转换器，可与 PDF 集成。 IronPDF 采用 Chromium 渲染引擎，拥有强大的 PDF 转换机制。它还与任何外部资源无关。

PDF 图像可以从多种来源创建，包括 HTML、HTML5、ASPX 和 Razor/MVC 视图。 HTML 和图像资产均可转换为 PDF。
可以用于处理交互式PDF的工具包括填写和提交交互式表单。
合并和拆分PDF，从PDF文件中提取文本和图片，搜索PDF文件中的文本，将PDF光栅化为图像，更改字体大小并转换PDF文件。
它允许使用用户代理、代理、cookie、HTTP 标头和表单变量对 HTML 登录表单进行验证。
通过提供用户名和密码，IronPDF 可以访问安全文档。
IronPDF 是一个可以读取 PDF 中的文本并补全空白的程序。
允许添加文本、图像、书签、水印等。
您可以从 CSS 文件创建 PDF 文件。
欲了解更多详情，请访问此IronPDF许可信息页面，获取免费限量钥匙和专业版。
IronPDF- 字体格式化

从 PDF 文件中提取文本

借助 IronPDF 库，IronPDF 还可以从 PDF 文件中读取和提取文本。以下是 IronPDF 代码的一种模式，可用于检查当前的 PDF 文件。

从所有页面提取文本

下面的代码示例演示了第一种方法，只需几行代码就能以字符串形式获取所有 PDF 内容。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

VB.NET

以上示例代码演示了如何使用FromFile方法从现有文件中读取PDF并将其转换为PDF文档对象。该对象提供了一个名为ExtractAllText的方法，该方法将从PDF中提取纯文本并将其转换为字符串。

按页码提取文本

下面的示例代码展示了如何使用页码从 PDF 文件中提取数据。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

VB.NET

上面的代码显示了如何从现有文件中读取PDF并使用FromFile函数将其转换为PDF文档对象。可使用此对象访问 PDF 上的文本和图像。该对象提供了一个名为ExtractTextFromPage的方法，它允许将页码作为参数传递，以获取包含PDF页面上每个单词的字符串。

提取页面之间的文本

下面的代码显示了如何提取多个页面之间的数据。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

VB.NET

上面的代码演示了如何使用FromFile方法从现有文件中读取PDF并将其转换为PDF文档对象。该对象允许检查 PDF 格式的文本和图像。该对象有一个名为ExtractTextFromPages的方法，可以通过传递页码列表作为参数来获取包含文档指定页面上所有文本内容的字符串。下面左侧是源 PDF，右侧是提取的数据。

如何在VB.NET中解析PDF文件，图2：提取页面之间的文本输出

提取页面之间的文本输出

从 PDF 文件中提取图像

IronPDF 提供了一系列提取图像的方法，如：

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

VB.NET

上面的代码展示了如何从现有文件中读取文档，并使用FromFile函数将其转换为PDF文档对象。通过将页面编号列表传递给对象的ExtractRawImagesFromPage方法，可以获得一个包含文档中指定页面上每张图片的字节列表。使用foreach循环来处理每个字节并将其转换为内存流。然后转换成位图，以便于保存图片。下图显示了上述代码的输出结果。

如何在VB.NET中解析PDF文件，图3：从PDF输出中提取图像

从PDF输出中提取图像

要了解有关IronPDF API代码教程的更多信息，请参阅IronPDF文档。您也可以访问其他教程，学习如何使用C# 解析PDF文本。

结论

IronPDF 库的开发许可是免费的。如果在生产环境中使用 IronPdf，可以根据开发人员的需求购买不同的许可证。 Lite计划从$749开始，并且没有持续费用。此外，还提供 SaaS 和 OEM 再分发替代方案。所有许可证均包括更新、一年的产品支持和永久许可证。这些工具还可用于制造、暂存和开发。这是一次性购买。您还可以获得额外的免费、有时间限制的许可证。访问IronPDF的全面许可信息，以阅读有关IronPDF的完整定价和许可详细信息。 IronPdf 还提供免费的复制保护许可证。

奇佩戈-卡琳达

立即与工程团队聊天

软件工程师

Chipego 拥有出色的倾听技巧，这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队，此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品，但他对所有产品的了解每天都在增长，因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围，公司各地的团队成员贡献他们丰富的经验，以提供有效的创新解决方案。当 Chipego 离开办公桌时，你经常可以发现他在看书或踢足球。

< 前一页
如何解除PDF的安全性（初学者教程）

下一步 >
如何在 .NET 中将 PDF 转换为 JPG