JAVA向けIRONPDFの使用

JavaでPDFを解析する方法(開発者チュートリアル)

リーガン・パン
リーガン・パン
2023年5月8日
更新済み 2024年9月15日
共有:

この記事では、IronPDFライブラリーを使用して効率的なアプローチでJavaにPDFパーサーを作成します。

IronPDF - Java PDFライブラリ

IronPDF for Javaは、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことができるJavaのPDFライブラリです。 それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Javaは、高速でパフォーマンスが最適化されたIronPdfEngineを利用しています。

IronPDFを使用すると、PDFファイルからテキストや画像を抽出できるだけでなく、HTML文字列、ファイル、URL、画像を含むさまざまなソースからPDFを作成することも可能です。 さらに、新しいコンテンツを簡単に追加し、IronPDF を使用して署名を挿入し、PDF ドキュメントにメタデータを埋め込むことができます。 IronPDFはJava 8+、Scala、Kotlin用に特別に設計されており、Windows、Linux、クラウドプラットフォームに対応しています。

JavaプログラムでIronPDFを使用してPDFファイルパーサーを作成

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

  1. Java IDE: Javaをサポートする任意のIDEを使用できます。開発に利用可能なJava IDEはいくつもあります。 ここでは、このチュートリアルはIntelliJ IDEを使用します。 NetBeans、Eclipseなどを使用できます。

  2. Mavenプロジェクト: Mavenは依存関係の管理ツールであり、Javaプロジェクトを制御することを可能にします。 Java用のMavenはMaven公式ウェブサイトからダウンロードできます。 IntelliJのJava IDEには、Mavenのサポートが組み込まれています。

  3. IronPDF - IronPDF for Java は複数の方法でダウンロードしてインストールできます。

    • Mavenプロジェクトのpom.xmlファイルにIronPDFの依存関係を追加する。
     :ProductInstall
  1. Slf4j-Simple: この依存関係は、既存のドキュメントにコンテンツを押印するためにも必要です。 IntelliJのMaven依存関係マネージャーを使用して追加することができ、またはMavenのウェブサイトから直接ダウンロードすることもできます。次の依存関係をpom.xmlファイルに追加してください。
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

必要なインポートの追加

すべての前提条件がインストールされると、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.java ファイルの先頭に次のコードを追加してください:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

ライセンスキー

IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。 次のようにキーを設定できます:

License.setLicenseKey("YOUR-KEY");
JAVA

ステップ1: 既存のPDFドキュメントを解析する

既存のドキュメントを解析してコンテンツを抽出するには、PdfDocument クラスを使用します。 その静的なfromFileメソッドは、Javaプログラムで特定のパスと特定のファイル名からPDFファイルを解析するために使用されます。 コードは以下の通りです:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

JavaでPDFを解析する方法(開発者向けチュートリアル)、図1:解析されたドキュメント

解析されたドキュメント

ステップ2: パースされたPDFファイルからテキストデータを抽出する

IronPDF for Java は、PDF ドキュメントからテキストを抽出する簡単な方法を提供します。 以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:

String extracted_text = parsedDocument.extractAllText();
JAVA

上記のコードは以下の出力を生成します:

JavaでPDFを解析する方法(開発者チュートリアル)、図2: 出力

出力

ステップ3: URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaは既存のPDFだけでなく、新しいファイルを作成して解析し、コンテンツを抽出することもできます。 ここでは、このチュートリアルがURLからPDFファイルを作成し、そこからコンテンツを抽出します。 以下の例は、このタスクを達成する方法を示しています:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(開発者チュートリアル)、図3: 出力

出力

ステップ 4:解析されたPDFドキュメントから画像を抽出する

IronPDFは、解析されたドキュメントからすべての画像を抽出する簡単なオプションも提供します。 ここでは、チュートリアルで前の例を使用して、PDFファイルから画像がどれほど簡単に抽出されるかを見ていきます。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

[extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages() メソッドは BufferedImages のリストを返します。 それぞれのBufferedImageは、ImageIO.writeメソッドを使用して指定した場所にPNG画像として保存できます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。

JavaでPDFを解析する方法(開発者向けチュートリアル)、図4:抽出された画像

抽出された画像

ステップ5: PDFファイルのテーブルからデータを抽出する

PDFファイル内の表形式の境界からコンテンツを抽出することは、[extractAllTextメソッド](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()を使用して、わずか1行のコードで簡単に行えます。 以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:

JavaでPDFを解析する方法(開発者チュートリアル)、図5:PDF内のテーブル

PDFの表

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(開発者向けチュートリアル)、図6: 出力

出力

結論

この記事では、IronPDFを使用してJavaで既存のPDFドキュメントを解析するか、URLから新しいPDFパーサーファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表データ、画像、テキストを抽出することができ、抽出したテキストを後で使用するためにテキストファイルに追加することもできます。

Javaでプログラム的にPDFファイルを操作する方法についての詳細情報は、こちらのPDFファイル作成例をご覧ください。

Java 用 IronPDF ライブラリは、無料トライアルが利用可能で、開発目的には無料です。 しかし、商業利用の場合は、IronSoftwareを通じてライセンスが可能で、$749から始まります。

リーガン・パン
ソフトウェアエンジニア
レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。
< 以前
IntelliJでのMavenプロジェクトの操作
次へ >
JavaでPDFレポートを生成する方法