使用IRONPDF FOR JAVA

如何在Java中读取PDF文件

Name: IronPDF
Brand: Iron Software
Availability: InStock

乔尔迪·巴尔迪亚

2023年二月26日

更新 2024年九月1日

本文将探讨如何创建PDF阅读器，以在软件应用程序中以编程方式打开PDF文件。为了有效地完成这项任务，IronPDF for Java 就是这样一个系统库，它可以帮助在 Java 程序中使用文件名打开和读取 PDF 文件。

如何用 Java 阅读 PDF 文件

下载 IronPDF Java 库
使用fromFile方法加载现有的PDF文档
调用extractAllText方法提取PDF中的嵌入文本
使用extractTextFromPage方法从特定页面提取文本
从URL生成的PDF中提取文本

IronPDF

IronPDF - Java Library 构建于已经成功的.NET Framework之上。这使得IronPDF相比于其他类库如Apache PDFBox，在处理PDF文档时成为一个多功能的工具。它提供了提取和解析内容、加载文本以及加载图像的功能。它还提供了一些选项来自定义 PDF 页面，比如页面布局、页边距、页眉和页脚、页面方向等等。

除此之外，IronPDF还支持将其他文件格式转换为PDF，保护PDF密码，加数字签名，合并和拆分PDF文档。

如何用 Java 阅读 PDF 文件

先决条件

要使用 IronPDF 创建 Java PDF 阅读器，必须确保在计算机上安装以下组件：

JDK - Java开发工具包是构建和运行Java程序所需的。如果尚未安装，请从Oracle网站下载。
IDE - 集成开发环境是一种帮助编写、编辑和调试程序的软件。下载任何 Java IDE，如 Eclipse、NetBeans 和 IntelliJ。
Maven - Maven 是一种自动化工具，可帮助从中央存储库下载库。从Apache Maven 网站下载。
IronPDF - 最后，需要IronPDF来在Java中读取PDF文件。这需要作为依赖项添加到您的 Java Maven 项目中。在pom.xml文件中包含IronPDF工件以及slf4j依赖项，如下例所示：

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

添加必要的导入

首先，在 Java 源文件顶部添加以下代码以引用 IronPDF 所需的所有方法。在此示例中，导入 org 是可选的。

import com.ironsoftware.ironpdf.*;

import com.ironsoftware.ironpdf.*;

JAVA

接下来，配置IronPDF并使用有效的许可证密钥来使用其方法。在主方法中调用setLicenseKey方法。

License.setLicenseKey("Your license key");

License.setLicenseKey("Your license key");

JAVA

注意：您可以获取免费试用许可证密钥以创建、读取和打印PDF。

在Java中读取现有PDF文件

要读取PDF文件，必须先有PDF文件，或者可以创建一个。这篇文章将使用一个已经创建的PDF文件。该代码非常简单，是一个两步的过程来从文档中提取文本。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);

JAVA

在上述代码中，fromFile 打开一个 PDF 文档。 Paths.get 方法获取文件的目录，并准备从文件中提取内容。然后，[extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) 读取文档中的所有文本。

输出如下：

如何在Java中读取PDF文件，图1：读取PDF文本输出

读取PDF文本输出

从特定页面读取文本

IronPDF 还可以读取 PDF 中特定页面的内容。 extractTextFromPage 方法使用 PageSelection 对象来接收将读取文本的页面范围。

在以下示例中，文本是从PDF文档的第二页提取的。 PageSelection.singlePage 采用需要提取的页面索引。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);

JAVA

如何在Java中读取PDF文件，图2：读取PDF文本输出

读取PDF文本输出

在PageSelection类中，还有其他可用于从各种页面提取文本的方法，包括：[firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()，[lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()，[pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int)，以及[allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()。

从新生成的PDF文件读取文本

还可以从 HTML 文件或 URL 生成的新 PDF 文件中执行文本搜索。以下示例代码从 URL 生成 PDF，并提取网站上的所有文本。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);

JAVA

如何在Java中读取PDF文件，图2：从新文件中读取

从新文件读取

IronPDF 还可以用于从 PDF 文件中提取图像。

完整代码如下：

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}

JAVA

摘要

本文介绍了如何使用 IronPDF 在 Java 中打开和读取 PDF。

IronPdf 可帮助轻松地从 HTML 或 URL 创建 PDF，并从不同的文件格式进行转换。它还可以帮助快速轻松地完成PDF任务。

试用IronPDF 30天免费试用，看看它在生产中对你有多么有效。探索 IronPDF 的商业授权选项，起价仅为$749。

乔尔迪·巴尔迪亚

立即与工程团队聊天

软件工程师

Jordi 最擅长 Python、C# 和 C++，当他不在 Iron Software 运用技能时，他会进行游戏编程。作为产品测试、产品开发和研究的负责人之一，Jordi 为持续的产品改进增添了极大的价值。多样化的经验让他充满挑战和参与感，他说这是他在 Iron Software 工作中最喜欢的方面之一。Jordi 在佛罗里达州迈阿密长大，并在佛罗里达大学学习计算机科学和统计学。

< 前一页
如何在 Java 中拆分 PDF 文件

下一步 >
HTML2PDF Java（代码示例教程）

通过Maven安装

版本：2025.3.6

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.3.6</version>
</dependency>

报告问题

加入我们的Iron Swag漏洞赏金计划

准备开始了吗？版本： 2025.3 刚刚发布

查看许可证 >

如何在Java中读取PDF文件

如何用 Java 阅读 PDF 文件

IronPDF

如何用 Java 阅读 PDF 文件

先决条件

添加必要的导入

在Java中读取现有PDF文件

从特定页面读取文本

从新生成的PDF文件读取文本

摘要

在此页面上

报告问题

准备开始了吗？ 版本： 2025.3 刚刚发布

下一步：开始免费30天试用

下一步：开始免费30天试用

被全球超过200万名工程师信赖

IronPDF 是 IRON 的一部分套装

准备开始了吗？版本： 2025.3 刚刚发布