JAVA向けIRONPDFの使用

JavaでPDFを解析する方法（開発者チュートリアル）

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

Darrius Serrant

2023年5月8日

更新済み 2024年9月15日

共有:

この記事では、IronPDFライブラリーを使用して効率的なアプローチでJavaにPDFパーサーを作成します。

IronPDF - Java PDFライブラリ

IronPDF for Javaは、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことができるJavaのPDFライブラリです。それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Javaは、高速でパフォーマンスが最適化されたIronPdfEngineを利用しています。

IronPDFを使用すると、PDFファイルからテキストや画像を抽出できるだけでなく、HTML文字列、ファイル、URL、画像を含むさまざまなソースからPDFを作成することも可能です。さらに、新しいコンテンツを簡単に追加し、IronPDF を使用して署名を挿入し、PDF ドキュメントにメタデータを埋め込むことができます。 IronPDFはJava 8+、Scala、Kotlin用に特別に設計されており、Windows、Linux、クラウドプラットフォームに対応しています。

JavaでPDFファイルを解析する方法

PDFファイルを解析するためのJavaライブラリをダウンロード
既存のPDFドキュメントをfromFileメソッドを使用して読み込む
解析されたPDFからextractAllTextメソッドを使用してすべてのテキストを抽出
URLからPDFをレンダリングするにはrenderUrlAsPdfメソッドを使用します
解析されたPDFからextractAllImagesメソッドを使用して画像を抽出する

JavaプログラムでIronPDFを使用してPDFファイルパーサーを作成

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

Java IDE: Javaをサポートする任意のIDEを使用できます。開発に利用可能なJava IDEはいくつもあります。ここでは、このチュートリアルはIntelliJ IDEを使用します。 NetBeans、Eclipseなどを使用できます。
Mavenプロジェクト: Mavenは依存関係の管理ツールであり、Javaプロジェクトを制御することを可能にします。 Java用のMavenはMaven公式ウェブサイトからダウンロードできます。 IntelliJのJava IDEには、Mavenのサポートが組み込まれています。
IronPDF - IronPDF for Java は複数の方法でダウンロードしてインストールできます。
- Mavenプロジェクトのpom.xmlファイルにIronPDFの依存関係を追加する。

     :ProductInstall

Java用の最新IronPDFパッケージについては、Mavenリポジトリのウェブサイトをご覧ください。
- Iron Softwareの公式ダウンロードページからの直接ダウンロード。
- シンプルなJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。

Slf4j-Simple: この依存関係は、既存のドキュメントにコンテンツを押印するためにも必要です。 IntelliJのMaven依存関係マネージャーを使用して追加することができ、またはMavenのウェブサイトから直接ダウンロードすることもできます。次の依存関係をpom.xmlファイルに追加してください。

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>

XML

必要なインポートの追加

すべての前提条件がインストールされると、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.java ファイルの先頭に次のコードを追加してください：

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;

JAVA

ライセンスキー

IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。次のようにキーを設定できます:

License.setLicenseKey("YOUR-KEY");

License.setLicenseKey("YOUR-KEY");

JAVA

ステップ1: 既存のPDFドキュメントを解析する

既存のドキュメントを解析してコンテンツを抽出するには、PdfDocument クラスを使用します。その静的なfromFileメソッドは、Javaプログラムで特定のパスと特定のファイル名からPDFファイルを解析するために使用されます。コードは以下の通りです:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));

JAVA

JavaでPDFを解析する方法（開発者向けチュートリアル）、図1：解析されたドキュメント

解析されたドキュメント

ステップ2: パースされたPDFファイルからテキストデータを抽出する

IronPDF for Java は、PDF ドキュメントからテキストを抽出する簡単な方法を提供します。以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:

String extracted_text = parsedDocument.extractAllText();

String extracted_text = parsedDocument.extractAllText();

JAVA

上記のコードは以下の出力を生成します：

JavaでPDFを解析する方法（開発者チュートリアル）、図2: 出力

出力

ステップ3: URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaは既存のPDFだけでなく、新しいファイルを作成して解析し、コンテンツを抽出することもできます。ここでは、このチュートリアルがURLからPDFファイルを作成し、そこからコンテンツを抽出します。以下の例は、このタスクを達成する方法を示しています：

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}

JAVA

出力は以下の通りです:

JavaでPDFを解析する方法（開発者チュートリアル）、図3: 出力

出力

ステップ 4：解析されたPDFドキュメントから画像を抽出する

IronPDFは、解析されたドキュメントからすべての画像を抽出する簡単なオプションも提供します。ここでは、チュートリアルで前の例を使用して、PDFファイルから画像がどれほど簡単に抽出されるかを見ていきます。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}

JAVA

[extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages() メソッドは BufferedImages のリストを返します。それぞれのBufferedImageは、ImageIO.writeメソッドを使用して指定した場所にPNG画像として保存できます。解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。

JavaでPDFを解析する方法（開発者向けチュートリアル）、図4：抽出された画像

抽出された画像

ステップ5: PDFファイルのテーブルからデータを抽出する

PDFファイル内の表形式の境界からコンテンツを抽出することは、[extractAllTextメソッド](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()を使用して、わずか1行のコードで簡単に行えます。以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:

JavaでPDFを解析する方法（開発者チュートリアル）、図5：PDF内のテーブル

PDFの表

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);

JAVA

出力は以下の通りです:

JavaでPDFを解析する方法（開発者向けチュートリアル）、図6: 出力

出力

結論

この記事では、IronPDFを使用してJavaで既存のPDFドキュメントを解析するか、URLから新しいPDFパーサーファイルを作成してデータを抽出する方法を示しました。ファイルを開いた後、PDFから表データ、画像、テキストを抽出することができ、抽出したテキストを後で使用するためにテキストファイルに追加することもできます。

Javaでプログラム的にPDFファイルを操作する方法についての詳細情報は、こちらのPDFファイル作成例をご覧ください。

Java 用 IronPDF ライブラリは、無料トライアルが利用可能で、開発目的には無料です。しかし、商業利用の場合は、IronSoftwareを通じてライセンスが可能で、$749から始まります。

Darrius Serrant

今すぐエンジニアリングチームとチャット

フルスタックソフトウェアエンジニア（WebOps）

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得しており、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに魅了され、コンピューティングを神秘的でありながらアクセスしやすいものと見なし、それが創造性と問題解決のための完璧な媒体であると感じました。

Iron Softwareでは、新しいものを作り出し、複雑な概念を簡単にすることでより理解しやすくすることを楽しんでいます。彼は常駐の開発者の一人として、学生に教えることを志願し、自分の専門知識を次世代と共有しています。

Darriusにとって、彼の仕事は評価され、実際に影響があることで充実しています。

< 以前
IntelliJでのMavenプロジェクトの操作

次へ >
JavaでPDFレポートを生成する方法

Mavenでインストール

バージョン:2025.4.4

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.4.4</version>
</dependency>

問題を報告

Iron Swagのバグバウンティに参加しよう

準備はできましたか？バージョン: 2025.4 新発売

ライセンスを表示 >

JavaでPDFを解析する方法（開発者チュートリアル）

IronPDF - Java PDFライブラリ

JavaでPDFファイルを解析する方法

JavaプログラムでIronPDFを使用してPDFファイルパーサーを作成

前提条件

必要なインポートの追加

ライセンスキー

ステップ1: 既存のPDFドキュメントを解析する

ステップ2: パースされたPDFファイルからテキストデータを抽出する

ステップ3: URLまたはHTML文字列からテキストデータを抽出する

ステップ 4：解析されたPDFドキュメントから画像を抽出する

ステップ5: PDFファイルのテーブルからデータを抽出する

結論

このページについて

問題を報告

準備はできましたか？ バージョン: 2025.4 新発売

次のステップ: 無料の30日間トライアルを開始する

次のステップ: 無料の30日間トライアルを開始する

世界中の200万人以上のエンジニアに信頼されています

IronPDF は IRONSUITE の一部です。

準備はできましたか？バージョン: 2025.4 新発売