使用IRONPDF FOR JAVA

如何在Java中从PDF中提取数据

更新 2024年九月1日
分享:

本教程将向您展示如何使用IronPDF for Java从PDF文件中提取数据。通过代码示例解释了设置环境、导入库、读取输入文件和提取所需数据的过程。

2. IronPDF Java PDF库

IronPDF是一个软件库,为开发人员提供生成和编辑的能力。使用 IronPDF for Java 从 PDF 文件中提取数据在他们的Java应用程序中。 它允许你从 HTML 文档创建 PDF图像等,以及合并多个PDF文件, 分割 PDF 文件以及操作现有的PDF。 IronPDF还提供了对PDF进行安全保护的功能密码保护功能为 PDF 添加数字签名以及其他功能。

IronPDF for Java 由 Iron Software 开发和维护。 其中最受好评的功能之一是从PDF文件以及HTML和URL中提取文本和数据。

3. 先决条件

使用IronPDF从PDF文件中提取数据,您必须满足以下先决条件:

  1. Java 安装: 确保您的系统上已安装 Java,并在环境变量中设置了 Java 的路径。 如果你还没有安装Java,请参考这个Java 网站上的下载页面说明。

  2. Java IDE: 安装一个像Eclipse或IntelliJ这样的Java集成开发环境。 您可以从此处下载EclipseEclipse 下载页面和 IntelliJIntelliJ 下载页面.

  3. IronPDF 库: 下载并将 IronPDF 库添加为项目中的依赖项。 访问IronPDF 设置说明页面安装说明。

  4. Maven安装: 在开始PDF转换过程之前,应先安装Maven并与您的IDE集成。 请参阅此JetBrains 上的 Maven 安装教程关于安装和集成Maven。

4. Java 版 IronPDF 的安装

安装IronPDF for Java很简单,只要满足所有要求。 本指南将使用 JetBrains 的 IntelliJ IDEA 演示安装和运行示例代码。

这是需要做的事:

打开 IntelliJ IDEA:在您的系统上启动 JetBrains IntelliJ IDEA。

创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。 这将为安装IronPDF for Java提供合适的环境。

如何在Java中从PDF中提取数据,图1:在IntelliJ中创建新的Maven项目

在 IntelliJ 中创建新的 Maven 项目

一个新窗口将会出现。 输入项目名称,然后点击完成。

如何在Java中提取PDF数据,图2:命名Maven项目并点击完成

命名 Maven 项目并点击完成

单击完成后,将打开一个带有 pom.xml 的新项目。 这将用于添加IronPDF Java Maven依赖项。

如何在Java中从PDF中提取数据,图3:pom.xml文件

pom.xml 文件

在 "pom.xml "文件中添加以下依赖项,或者您可以从IronPDF 库在 Sonatype Central 上的页面.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.2.8</version>
</dependency>

一旦你将依赖项放置在pom.xml文件中,文件的右上角会出现一个小图标。

如何从PDF中提取数据在Java,图4:点击浮动图标以自动安装Maven依赖项

点击浮动图标自动安装Maven依赖

通过点击此按钮安装IronPDF for Java的Maven依赖项。 根据您的互联网连接速度,这应该只需要几分钟。

提取数据

IronPDF 是一个用于创建、编辑和从PDF文档中提取数据的Java库。 它提供了一个简单的API,从PDF文件、URL和表格中提取文本。

从PDF文档中提取数据

使用IronPDF for Java,您可以轻松地从PDF文档中提取文本数据。 下面是从PDF文件提取数据的示例代码。

如何在 Java 中提取 PDF 数据, 图 5:PDF 输入

PDF输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

源代码的输出结果如下:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

从URLs中提取数据

IronPDF for Java在运行时将URL转换为PDF并从中提取文本。 此示例将查看从URL提取文本的源代码。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

如何在 Java 中从 PDF 提取数据,图6:提取的网页数据

提取的网页数据

从表格数据中提取数据

使用 IronPDF for Java 从 PDF 中提取表格数据非常简单; 您只需要一个包含表格的PDF文件,并运行以下代码。

如何在Java中从PDF中提取数据,图7:示例PDF表格输入

Sample PDF 表格输入

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. 结论

总之,本教程演示了如何使用IronPDF for Java从PDF文件中提取数据,特别是表格数据。

欲了解更多信息,请参阅从 PDF 示例中提取文本在 IronPDF 网站上。

IronPDF 是一个具有商业许可详细信息,从 $749 开始。 但是,您可以在生产环境中评估它, 使用 IronPDF 试用许可证免费试用.

< 前一页
如何在Java中从PDF提取图像
下一步 >
如何使用Java合并两个PDF文件

通过Maven安装

版本:2025.2.8

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.2.8</version>
</dependency>