使用 IRONPDF FOR NODE.JS

如何在 Node.js 中從 PDF 提取圖像

發佈 2025年1月14日
分享:

從 PDF 中提取圖像對於許多開發人員來說是一項常見任務,無論是用於文件處理、數據提取,還是創建文件預覽。 在本文中,我們將探討如何使用從 PDF 中提取和保存圖像IronPDF,功能強大的PDF庫可用於.NET,以及如何將其整合到Node.js通過其NPM套件的環境。

如何使用IronPDF Node.js從PDF文件中提取圖像

  1. 設置 Node.js 應用程式。

  2. 安裝 IronPDF 的 NPM 套件。

  3. 準備 PDF 以進行提取。

  4. 從 PDF 文件中提取圖像並保存。

先決條件

如果你还没有安装 Node.js,请从 https://nodejs.org/ 下载并安装。

介紹 IronPDF NPM 套件

IronPDF NPM 套件是 IronPDF 庫的一個 Node.js 包裝器,最初為 .NET 環境設計。 它允許開發人員在 Node.js 應用程式中利用 IronPDF 強大的 PDF 操作功能。 此軟體包特別適合處理 PDF 文件,提供了在許多現實應用中有用的多種功能,例如文件處理、報告生成等。

IronPDF 在 Node.js 的主要功能

  1. PDF 創建:

    IronPDF可以從多種來源創建PDF,包括HTML內容、圖像甚至是純文本。 此功能對於需要以 PDF 格式生成報告、發票或其他文件的網絡應用程序非常有用。

    IronPDF 支援樣式和格式化 HTML 內容,是將網頁轉換為結構良好的 PDF 文件的絕佳選擇。

  2. PDF 編輯

    IronPDF 讓您能夠通過添加文本、圖像或註釋來操作現有的 PDF,並修改佈局。 您還可以將多個 PDF 合併為一個,將大型文件拆分為較小的部分,甚至可以重新排列 PDF 內的頁面。

    這些功能使其成為需要動態修改 PDF 的應用程式的理想選擇,例如文件管理系統或需要自動化文件生成的應用程式。

  3. PDF 轉換

    IronPDF 的一個突出功能是其將 PDF 轉換為其他各種格式的能力。 例如,它可以將 PDF 文件轉換為圖像。(PNG, JPEG)、HTML 和 Word 格式。

    此功能在您需要以不同格式呈現 PDF 的內容或為使用者介面創建 PDF 的圖片預覽時特別有用。

  4. 提取文本和圖片

    雖然 IronPDF 沒有直接的 REST API 來提取 PDF 中的原始圖像,但它確實提供了一種將 PDF 頁面渲染為圖像的方法。(例如 PNG 或 JPEG),可以用作提取內容的間接方式。

    您可以將 PDF 的每頁渲染成圖像,有效地捕捉文檔的視覺表現,並保存以供進一步使用或展示。

  5. 將頁面渲染為圖像

    IronPDF 可以將 PDF 頁面轉換為高品質圖像。 例如,您可以將多頁 PDF 轉換為一系列 PNG,每頁一個。 當您需要將頁面顯示為縮圖或以圖像格式顯示時,這特別有用。 它支持各種圖像格式類型。

  6. 安全性與加密

    IronPDF 支援處理加密的 PDF。 它允許您開啟、解密及操作受保護的文件,這對於需要密碼或其他形式保護的文件處理至關重要。

  7. 跨平台相容性

    IronPDF 兼容 Windows 和 Linux 環境,使其成為用於伺服器端應用程式的多功能工具。 Node.js 包裝器簡化了將 IronPDF 整合到基於 Node.js 的應用程式中的過程。

步驟 1:設置 Node.js 應用程序

首先,在本地設備上創建一個資料夾,然後開啟 Visual Studio Code,以設置 Node.js 專案資料夾。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .

步驟 2:安裝 IronPDF 的 NPM 套件

在 Windows 或 Linux 機器上安裝 IronPDF Node.js 套件及其支援套件。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64

套件 @ironsoftware/ironpdf-engine-windows-x64 是一個平台專用版本的 IronPDF 庫,專門為 Windows 64 位元系統設計。

1. Windows(64位)專用平台二進制檔案

IronPDF 庫具有平台特定的依賴性。 要使 Node.js 與 IronPDF 高效運作,需要為特定作業系統和架構量身定制的原生二進位文件。 在此情況下,@ironsoftware/ironpdf-engine-windows-x64 套件提供適用於 Windows 64-bit 環境的原生引擎。

2. 優化性能

通過使用此 Windows 專用套件,您可以確保 IronPDF 庫在基於 Windows 的系統上保持最佳運行狀態。 它確保所有本機相依性,例如與 PDF 呈現和操作相關的相依性,均能夠在您的機器上兼容並順利運行。

3. 簡化安裝

與其手動管理和配置 Windows 64 位系統所需的二進制文件,安裝 @ironsoftware/ironpdf-engine-windows-x64 套件可以自動化此過程。 這樣可以節省時間並消除潛在的相容性問題。

4. 跨平台相容性

IronPDF 也支持其他平台,例如 macOS 和 Linux。 提供特定平臺的套件,讓開發者能夠為他們的操作系統使用正確的二進位檔,從而提高整體穩定性和庫的可靠性。

5. 某些功能的必要條件

如果您正在使用某些 IronPDF 功能(例如將 PDF 渲染為圖片或執行複雜的文件操作),需安裝原生引擎。 @ironsoftware/ironpdf-engine-windows-x64 軟體包專為基於 Windows 的環境內含此引擎。

步驟 3:準備一個 PDF 以進行提取

現在取得需要提取的 PDF 檔案。 複製用於應用程式的路徑。 本文使用以下檔案。

如何從 PDF 中提取圖像在 Node.js 中:圖 1 - 範例文件

步驟 4:從 PDF 文件中提取圖像並儲存

現在使用上述步驟中的檔案,並在 Node.js 專案資料夾中的 app.js 檔案寫下以下程式碼片段。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
JAVASCRIPT

運行應用程式:

node app.js

程式碼說明

以下代碼片段範例展示了如何在 Node.js 中使用 IronPDF 庫來提取文本和圖像。(JPG 格式)從 PDF 文件。

  1. 授權設置:IronPdfGlobalConfig 用於設置 IronPDF 的授權密鑰,這是使用該庫功能所必需的。

  2. PDF 加載:此程式碼加載了 PDF 文件(ironPDF.pdf)使用 PdfDocument.fromFile()方法。 這允許程序處理 PDF 的內容。

  3. 文字提取:extractText()方法用於從加載的 PDF 中提取所有文本。 此文字可用於索引或搜尋文件的任務。

  4. 影像提取:extractRawImages()該方法用於從 PDF 中提取原始圖像。 這些影像以緩衝區的形式返回,可以儲存或進一步處理。

  5. 儲存圖片:提取的圖片使用 Node 的 fs.writeFileSync 以 JPG 文件形式儲存到本地文件系統。()方法。

  6. 最終輸出:提取完成後,程式會打印出提取的文本和提取的圖像數量,接著保存第一張圖像。

    該代碼展示了如何使用 IronPDF 在 Node.js 環境中與 PDF 文件互動以提取內容並進行處理。

輸出

如何從 PDF 中提取圖片在 Node.js 中:圖 2 - 控制台輸出

如何在 Node.js 中從 PDF 中提取圖像:圖 3 - 圖像輸出

許可證(提供試用)

IronPDF Node.js 需要授權金鑰才能運作。 開發人員可以使用他們的電子郵件 ID 從授權頁面. 一旦您提供電子郵件 ID,金鑰將會送到該電子郵件,並可在應用程式中使用,如下所示。

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
JAVASCRIPT

結論

在 Node.js 中使用 IronPDF 從 PDF 中提取圖像提供了一種強大且高效的方式來處理 PDF 內容。 雖然IronPDF不像一些專門工具那樣提供直接的圖像提取功能,但它允許您將PDF頁面渲染為圖像,這對於創建文檔的視覺表示非常有用。

該函式庫能夠以簡單易行的方式從 PDF 中提取文本和圖像,使其成為需要處理和操作 PDF 內容的應用程式中一個寶貴的工具。 與 Node.js 的整合使開發人員能夠輕鬆地將 PDF 提取納入網頁或伺服器端應用程式中。

總體而言,IronPDF 是一款功能強大的 PDF 操作解決方案,提供了將 PDF 轉換、儲存和提取圖像的靈活性,使其適用於文件索引、預覽生成和內容提取等各種使用情境。 然而,如果您的重點僅在於從 PDF 中提取嵌入圖像,探索其他庫可能會提供更專門的解決方案。

下一個 >
如何在 Node.js 中編輯 PDF 文件