使用IRONPDF FOR JAVA

如何在Java中从PDF提取图像

雷根·彭
雷根·彭
2023年三月11日
更新 2024年九月1日
分享:

本文将探讨如何使用Java编程语言从现有PDF文档中提取图像并将其保存在一个文件夹中。 为此,使用IronPDF for Java库提取图像。

IronPDF Java PDF 库

IronPDF 是一个 Java 库,旨在帮助开发人员在其 Java 应用程序中生成、修改和提取 PDF 文件中的数据。 使用 IronPDF,您可以从多种来源创建 PDF 文档,例如 HTML、图像等。 此外,您可以合并拆分和操作现有的PDF文件。 IronPDF还包括安全功能,例如密码保护数字签名

由Iron Software开发和维护,IronPDF以其从PDF、HTML和URL中提取文本的能力而闻名。 这使它成为一个多功能且强大的工具,可用于各种应用,无论是从头创建 PDF 还是处理现有的 PDF。

先决条件

在使用IronPDF从PDF文件中提取数据之前,必须满足以下几个前提条件:

  1. Java 安装:确保 Java 已安装在您的系统中,并将其路径设置在环境变量中。 如果您尚未安装 Java,请按照Java 网站的下载页面上的说明进行操作。

  2. Java IDE:将Eclipse或IntelliJ安装为您的Java IDE。您可以从此链接下载Eclipse,并从此下载页面下载IntelliJ。

  3. IronPDF 库:下载并将 IronPDF 库添加到您的项目中作为依赖项。 有关设置说明,请访问IronPDF 网站

  4. Maven 安装:在开始 PDF 转换过程之前,确保已安装 Maven 并将其与您的 IDE 集成。 请按照以下JetBrains指南中的教程进行操作,以获取安装和集成Maven的帮助。

Java 版 IronPDF 安装

安装 IronPDF for Java 是一个简单的过程,前提是满足所有要求。 本指南将使用 JetBrains IntelliJ IDEA 演示安装并运行一些示例代码。

这是需要做的事:

启动 IntelliJ IDEA:在您的系统上打开 JetBrains IntelliJ IDEA。

创建一个Maven项目:在IntelliJ IDEA中,创建一个新的Maven项目。 这将为安装IronPDF for Java提供合适的环境。

如何在 Java 中从 PDF 中提取图像,图 1:创建一个新的 Maven 项目

创建一个新的Maven项目

一个新窗口将会出现。 输入项目名称,然后点击完成。

如何在 Java 中从 PDF 提取图像,图 2:输入项目名称

输入项目名称

点击完成后,一个新项目将打开pom.xml文件,以添加IronPDF for Java的Maven依赖项。

接下来,在pom.xml文件中添加以下依赖项,或者您可以从以下Maven 仓库下载 JAR 文件。

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

将依赖项放入pom.xml文件后,文件的右上角将出现一个小图标。

如何在 Java 中从 PDF 提取图像,图 3:带有小图标用于安装依赖项的 pom.xml 文件

带有小图标以安装依赖项的pom.xml文件

点击此图标安装IronPDF for Java的Maven依赖。 这只需要几分钟,具体取决于您的网络连接。

提取图像

您可以使用IronPDF中的一个名为[extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()的方法从PDF文档中提取图像。 此方法返回 PDF 文件中所有可用的图像。之后,您可以使用 ImageIO.write 方法提供输出图像的路径和格式,将所有提取的图像保存到您选择的文件路径。

从PDF文档中提取图像

在以下示例中,PDF文档中的图像将被提取并保存到文件系统中作为PNG图像。

import com.ironsoftware.ironpdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class main {
    public static void main(String[] args) throws Exception {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("Final Project Report Craft Arena.pdf"));

        List<BufferedImage> images = pdf.extractAllImages();
        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
        }
    }
}
JAVA

上面的程序打开 "Final Project Report Craft Arena.pdf" 文件,并使用 extractAllImages 方法将文件中的所有图像提取到 BufferedImage 对象的列表中。 然后将每个新文件图像保存到具有唯一名称的单独PNG文件中。

如何在 Java 中从 PDF 提取图像,图 4:从 PDF 提取图像的输出

从PDF提取图像输出

从URL提取图像

本节将讨论如何直接从URL中提取图像。 在下面的代码中,URL 会被转换成 PDF 页面,然后切换导航以从 PDF 中提取图像。

import com.ironsoftware.ironpdf.PdfDocument;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://www.amazon.com/?tag=hp2-brobookmark-us-20");

        List<BufferedImage> images = pdf.extractAllImages();
        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("image" + ++i + ".png")));
        }
    }
}
JAVA

在上述代码中,提供了亚马逊主页的URL作为输入,并返回了74张图片。

如何从PDF中提取图像,Java中的图5:从PDF输出中提取图像

从PDF提取图像输出

结论

使用IronPDF库在Java中可以从PDF文档中提取图像。 要安装IronPDF,您需要安装Java、一个Java IDE(Eclipse或IntelliJ)、Maven,以及将IronPDF库安装并集成到您的项目中。 使用IronPDF从PDF文档中提取图像的过程非常简单,只需调用extractAllImages方法即可。 然后,您可以使用ImageIO.write方法将图像保存到您选择的文件路径。

本文提供了一个循序渐进的指南,介绍了如何使用Java和IronPDF库从PDF文档中提取图像。 有关如何从PDF中提取文本的更多详细信息,请参见提取文本代码示例

IronPDF 是一个带有商业许可的库,起价为$749。 不过,您可以在生产环境中通过免费试用来评估它。

雷根·彭
软件工程师
Regan毕业于雷丁大学,拥有电子工程学士学位。在加入Iron Software之前,他的前工作职位要求他专注于单一任务;他在Iron Software最喜欢的是能进行多种工作,无论是增加销售价值、技术支持、产品开发还是营销。他喜欢了解开发人员如何使用Iron Software的库,并利用这些知识不断改进文档和开发产品。
< 前一页
如何在Java中生成PDF
下一步 >
如何在Java中从PDF中提取数据

通过Maven安装

版本:2025.3.6

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.3.6</version>
</dependency>