IRONPDF FOR NODE.JSを使用する

Node.jsでPDFから画像を抽出する方法

公開済み 2025年1月14日
共有:

PDFから画像を抽出することは、ファイル処理、データ抽出、またはドキュメントプレビューの作成を目的とする多くの開発者にとって一般的なタスクです。 この記事では、PDFから画像を抽出して保存する方法を探りますIronPDF、.NETで利用可能な強力なPDFライブラリであり、どのようにそれを統合できるかNode.jsNPMパッケージを通じて環境。

IronPDF Node.jsを使用してPDFファイルから画像を抽出する方法

  1. Node.jsアプリケーションをセットアップする。

  2. IronPDFのNPMパッケージをインストールします。

  3. PDFを抽出の準備をする。

  4. PDFファイルから画像を抽出して保存します。

前提条件

まだNode.jsをインストールしていない場合は、https://nodejs.org/からダウンロードしてインストールしてください。

IronPDF NPMパッケージの紹介

IronPDF NPMパッケージは、元々.NET環境用に設計されたIronPDFライブラリのNode.jsラッパーです。 これは、開発者がNode.jsアプリケーションでIronPDFの強力なPDF操作機能を活用することを可能にします。 このパッケージは、PDFドキュメントを扱う際に特に有用であり、ファイル処理、レポート生成など、多くの実世界のアプリケーションで役立つ幅広い機能を提供します。

Node.jsにおけるIronPDFの主要機能

  1. PDF作成

    IronPDFは、HTMLコンテンツ、画像、または生のテキストなど、さまざまなソースからPDFを作成できます。 この機能は、レポート、請求書、その他のドキュメントをPDF形式で生成する必要があるウェブアプリケーションに非常に役立ちます。

    IronPDFは、HTMLコンテンツのスタイルとフォーマットをサポートしており、ウェブページを構造化されたPDFドキュメントに変換するのに最適な選択です。

  2. PDF編集:

    IronPDFを使用すると、テキスト、画像、注釈を追加し、レイアウトを変更することにより、既存のPDFを操作できます。 複数のPDFを1つに結合したり、大きなドキュメントを小さな部分に分割したり、PDF内のページを順序変更したりすることもできます。

    これらの機能により、ドキュメント管理システムや自動化されたドキュメント生成を必要とするアプリケーションなど、PDFを動的に変更する必要があるアプリケーションに最適です。

  3. PDF変換

    IronPDFの際立った機能の一つは、PDFを様々な他の形式に変換できる能力です。 たとえば、PDFドキュメントを画像に変換することができます。(PNG、JPEG)、HTML、およびWord形式。

    この機能は、PDFのコンテンツをさまざまな形式で表示する必要がある場合や、ユーザーインターフェース用にPDFの画像プレビューを作成する場合に特に便利です。

  4. テキストと画像の抽出:

    IronPDFにはPDFから生の画像を直接抽出するREST APIはありませんが、PDFページを画像としてレンダリングするためのメソッドは提供しています。(PNGやJPEGなど)間接的にコンテンツを抽出する方法として使用できます。

    PDFの各ページを画像としてレンダリングすることができ、ドキュメントの視覚的表現を効果的にキャプチャし、後続の使用や表示のために保存することができます。

  5. ページを画像としてレンダリングする

    IronPDFは、PDFページを高品質の画像に変換できます。 例えば、マルチページのPDFを各ページごとに1つずつPNGのシリーズに変換することができます。 これは、ページをサムネイルとして表示する必要がある場合や、画像ベースの形式で表示する必要がある場合に特に便利です。 さまざまな画像形式をサポートしています。

  6. セキュリティと暗号化:

    IronPDFは暗号化されたPDFの操作をサポートしています。 これは、パスワードやその他の保護手段が必要なドキュメントを扱う際に、ドキュメントを開いたり、復号化したり、操作したりすることを可能にします。

  7. クロスプラットフォーム互換性

    IronPDFは、WindowsおよびLinux環境の両方で互換性があり、サーバーサイドアプリケーションにとって多用途のツールです。 Node.jsラッパーは、IronPDFをNode.jsベースのアプリケーションに統合するプロセスを簡素化します。

ステップ 1: Node.js アプリケーションをセットアップする

まず、ローカルマシンにフォルダーを作成し、Visual Studio Codeを開いてNode.jsプロジェクトフォルダーを設定します。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .

ステップ 2: IronPDF の NPM パッケージをインストールする

Windows または Linux マシンに基づいて、IronPDF Node.js パッケージとそのサポートパッケージをインストールします。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64

パッケージ @ironsoftware/ironpdf-engine-windows-x64 は、Windows 64ビットシステム向けに特別に設計されたIronPDFライブラリのプラットフォーム固有バージョンです。

1. Windows(64ビット)用のプラットフォーム固有のバイナリ

IronPDF ライブラリにはプラットフォーム固有の依存関係があります。 Node.jsがIronPDFと効率的に動作するためには、特定のオペレーティングシステムやアーキテクチャに合わせたネイティブバイナリが必要です。 この場合、@ironsoftware/ironpdf-engine-windows-x64 パッケージは、Windows 64-bit 環境向けのネイティブエンジンを提供します。

2. 最適化されたパフォーマンス

このWindows専用パッケージを使用することで、IronPDFライブラリがWindowsベースのシステムで最適に動作することを保証します。 それは、PDFのレンダリングや操作に関連するものなど、すべてのネイティブ依存関係が互換性があり、あなたのマシンでスムーズに機能することを保証します。

3. インストールの簡素化

Windows 64ビットシステム用に必要なバイナリを手動で管理および設定する代わりに、@ironsoftware/ironpdf-engine-windows-x64パッケージをインストールすると、このプロセスが自動化されます。 これにより時間が節約され、潜在的な互換性の問題が解消されます。

4. クロスプラットフォーム互換性

IronPDFはmacOSやLinuxなどの他のプラットフォームもサポートしています。 プラットフォーム固有のパッケージを提供することで、開発者は自分のオペレーティングシステムに適したバイナリを使用でき、ライブラリの全体的な安定性と信頼性が向上します。

5. 特定の機能に必要

特定のIronPDF機能を使用している場合(PDFを画像にレンダリングしたり、複雑なドキュメント操作を実行したりするような処理)、ネイティブエンジンが必要です。 @ironsoftware/ironpdf-engine-windows-x64 パッケージには、特にWindowsベースの環境向けにこのエンジンが含まれています。

ステップ3: 抽出のためにPDFを準備する

PDFファイルを取得し、抽出を行います。 アプリケーションで使用するパスをコピーします。 この記事は以下のファイルを使用します。

Node.jsでPDFから画像を抽出する方法:図1 - サンプルファイル

ステップ4: PDFファイルから画像を抽出して保存

次に、上記のステップで使用したファイルを利用し、以下のコードスニペットをNode.jsプロジェクトフォルダのapp.jsファイルに記述します。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
JAVASCRIPT

アプリを実行する:

node app.js

コードの説明

このコードスニペットの例は、Node.jsでIronPDFライブラリを使用してテキストと画像を抽出する方法を示しています。(JPG形式)PDFドキュメントから。

  1. ライセンスセットアップ: IronPdfGlobalConfigはIronPDFのライセンスキーを設定するために使用され、このライブラリの機能を利用するために必要です。

  2. PDFの読み込み: このコードはPDFドキュメントを読み込みます(ironPDF.pdf)PdfDocument.fromFile を使用して()メソッド。 これにより、プログラムはPDFの内容を操作することができます。

  3. テキスト抽出:extractText()メソッドは、読み込まれたPDFからすべてのテキストを抽出するために使用されます。 このテキストは、ドキュメントの索引付けや検索のようなタスクに使用できます。

  4. 画像抽出: extractRawImages()メソッドは、PDFから生画像を抽出するために使用されます。 これらの画像はバッファとして返され、保存またはさらに処理することができます。

  5. 画像の保存: 抽出された画像は、Nodeのfs.writeFileSyncを使用してJPGファイルとしてローカルファイルシステムに保存されます。()メソッド。

  6. 最終出力: 抽出が完了すると、プログラムは抽出されたテキストと抽出された画像の数を表示し、最初の画像を保存します。

    このコードは、IronPDFを使用してPDFファイルと対話し、Node.js環境内でコンテンツを抽出および処理する方法を示しています。

出力

Node.jsでPDFから画像を抽出する方法: 図2 - コンソール出力

Node.jsでPDFから画像を抽出する方法:図3 - 画像出力

ライセンス(試用版あり)

IronPDF Node.jsの動作にはライセンスキーが必要です。 開発者は、メールIDを使用して試用ライセンスを取得できます。ライセンスページ. メールIDを提供すると、キーがメールに配信され、以下のようにアプリケーションで使用できます。

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
JAVASCRIPT

結論

Node.jsでIronPDFを使用してPDFから画像を抽出することは、PDFコンテンツを処理するための堅牢で効率的な方法を提供します。 IronPDFは、いくつかの専門的なツールのように直接的な画像抽出を提供していませんが、PDFページを画像としてレンダリングすることができ、文書の視覚的な表現を作成するのに役立ちます。

ライブラリがPDFからテキストと画像の両方を簡単に抽出できる能力は、PDFコンテンツを処理および操作する必要があるアプリケーションにとって貴重なツールとなっています。 Node.jsとの統合により、開発者はWebまたはサーバーサイドアプリケーションにPDF抽出を容易に組み込むことができます。

全体的に、IronPDF は PDF 操作において強力なソリューションであり、PDF の変換、保存、および画像の抽出などの柔軟性を提供し、文書インデックス作成、プレビュー生成、コンテンツ抽出などの広範なユースケースに適しています。 ただし、PDFから埋め込まれた画像を抽出することに専念している場合、他のライブラリを検討することで、より専門的な解決策が得られるかもしれません。

次へ >
Node.jsでPDFファイルを編集する方法