在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
從 PDF 中提取圖像對於許多開發人員來說是一項常見任務,無論是用於文件處理、數據提取,還是創建文件預覽。 在本文中,我們將探討如何使用從 PDF 中提取和保存圖像IronPDF,功能強大的PDF庫可用於.NET,以及如何將其整合到Node.js通過其NPM套件的環境。
設置 Node.js 應用程式。
安裝 IronPDF 的 NPM 套件。
準備 PDF 以進行提取。
如果你还没有安装 Node.js,请从 https://nodejs.org/ 下载并安装。
IronPDF NPM 套件是 IronPDF 庫的一個 Node.js 包裝器,最初為 .NET 環境設計。 它允許開發人員在 Node.js 應用程式中利用 IronPDF 強大的 PDF 操作功能。 此軟體包特別適合處理 PDF 文件,提供了在許多現實應用中有用的多種功能,例如文件處理、報告生成等。
PDF 創建:
IronPDF可以從多種來源創建PDF,包括HTML內容、圖像甚至是純文本。 此功能對於需要以 PDF 格式生成報告、發票或其他文件的網絡應用程序非常有用。
IronPDF 支援樣式和格式化 HTML 內容,是將網頁轉換為結構良好的 PDF 文件的絕佳選擇。
PDF 編輯:
IronPDF 讓您能夠通過添加文本、圖像或註釋來操作現有的 PDF,並修改佈局。 您還可以將多個 PDF 合併為一個,將大型文件拆分為較小的部分,甚至可以重新排列 PDF 內的頁面。
這些功能使其成為需要動態修改 PDF 的應用程式的理想選擇,例如文件管理系統或需要自動化文件生成的應用程式。
PDF 轉換:
IronPDF 的一個突出功能是其將 PDF 轉換為其他各種格式的能力。 例如,它可以將 PDF 文件轉換為圖像。(PNG, JPEG)、HTML 和 Word 格式。
此功能在您需要以不同格式呈現 PDF 的內容或為使用者介面創建 PDF 的圖片預覽時特別有用。
提取文本和圖片:
雖然 IronPDF 沒有直接的 REST API 來提取 PDF 中的原始圖像,但它確實提供了一種將 PDF 頁面渲染為圖像的方法。(例如 PNG 或 JPEG),可以用作提取內容的間接方式。
您可以將 PDF 的每頁渲染成圖像,有效地捕捉文檔的視覺表現,並保存以供進一步使用或展示。
將頁面渲染為圖像:
IronPDF 可以將 PDF 頁面轉換為高品質圖像。 例如,您可以將多頁 PDF 轉換為一系列 PNG,每頁一個。 當您需要將頁面顯示為縮圖或以圖像格式顯示時,這特別有用。 它支持各種圖像格式類型。
安全性與加密:
IronPDF 支援處理加密的 PDF。 它允許您開啟、解密及操作受保護的文件,這對於需要密碼或其他形式保護的文件處理至關重要。
跨平台相容性:
IronPDF 兼容 Windows 和 Linux 環境,使其成為用於伺服器端應用程式的多功能工具。 Node.js 包裝器簡化了將 IronPDF 整合到基於 Node.js 的應用程式中的過程。
首先,在本地設備上創建一個資料夾,然後開啟 Visual Studio Code,以設置 Node.js 專案資料夾。
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
在 Windows 或 Linux 機器上安裝 IronPDF Node.js 套件及其支援套件。
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
套件 @ironsoftware/ironpdf-engine-windows-x64
是一個平台專用版本的 IronPDF 庫,專門為 Windows 64 位元系統設計。
IronPDF 庫具有平台特定的依賴性。 要使 Node.js 與 IronPDF 高效運作,需要為特定作業系統和架構量身定制的原生二進位文件。 在此情況下,@ironsoftware/ironpdf-engine-windows-x64 套件提供適用於 Windows 64-bit 環境的原生引擎。
通過使用此 Windows 專用套件,您可以確保 IronPDF 庫在基於 Windows 的系統上保持最佳運行狀態。 它確保所有本機相依性,例如與 PDF 呈現和操作相關的相依性,均能夠在您的機器上兼容並順利運行。
與其手動管理和配置 Windows 64 位系統所需的二進制文件,安裝 @ironsoftware/ironpdf-engine-windows-x64 套件可以自動化此過程。 這樣可以節省時間並消除潛在的相容性問題。
IronPDF 也支持其他平台,例如 macOS 和 Linux。 提供特定平臺的套件,讓開發者能夠為他們的操作系統使用正確的二進位檔,從而提高整體穩定性和庫的可靠性。
如果您正在使用某些 IronPDF 功能(例如將 PDF 渲染為圖片或執行複雜的文件操作),需安裝原生引擎。 @ironsoftware/ironpdf-engine-windows-x64 軟體包專為基於 Windows 的環境內含此引擎。
現在取得需要提取的 PDF 檔案。 複製用於應用程式的路徑。 本文使用以下檔案。
現在使用上述步驟中的檔案,並在 Node.js 專案資料夾中的 app.js 檔案寫下以下程式碼片段。
const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
(async () => {
// Extracting Image and Text content from Pdf Documents
// Import existing PDF document
const pdf = await PdfDocument.fromFile("ironPDF.pdf");
// Get all text to put in a search index and log it
const text = await pdf.extractText();
console.log('All Text:'+text);
// Get all Images
const imagesBuffer = await pdf.extractRawImages();
console.log('images count:'+imagesBuffer.length);
fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
// this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
運行應用程式:
node app.js
以下代碼片段範例展示了如何在 Node.js 中使用 IronPDF 庫來提取文本和圖像。(JPG 格式)從 PDF 文件。
授權設置:IronPdfGlobalConfig 用於設置 IronPDF 的授權密鑰,這是使用該庫功能所必需的。
PDF 加載:此程式碼加載了 PDF 文件(ironPDF.pdf)使用 PdfDocument.fromFile()方法。 這允許程序處理 PDF 的內容。
文字提取:extractText()方法用於從加載的 PDF 中提取所有文本。 此文字可用於索引或搜尋文件的任務。
影像提取:extractRawImages()該方法用於從 PDF 中提取原始圖像。 這些影像以緩衝區的形式返回,可以儲存或進一步處理。
儲存圖片:提取的圖片使用 Node 的 fs.writeFileSync
以 JPG 文件形式儲存到本地文件系統。()方法。
最終輸出:提取完成後,程式會打印出提取的文本和提取的圖像數量,接著保存第一張圖像。
該代碼展示了如何使用 IronPDF 在 Node.js 環境中與 PDF 文件互動以提取內容並進行處理。
IronPDF Node.js 需要授權金鑰才能運作。 開發人員可以使用他們的電子郵件 ID 從授權頁面. 一旦您提供電子郵件 ID,金鑰將會送到該電子郵件,並可在應用程式中使用,如下所示。
const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
在 Node.js 中使用 IronPDF 從 PDF 中提取圖像提供了一種強大且高效的方式來處理 PDF 內容。 雖然IronPDF不像一些專門工具那樣提供直接的圖像提取功能,但它允許您將PDF頁面渲染為圖像,這對於創建文檔的視覺表示非常有用。
該函式庫能夠以簡單易行的方式從 PDF 中提取文本和圖像,使其成為需要處理和操作 PDF 內容的應用程式中一個寶貴的工具。 與 Node.js 的整合使開發人員能夠輕鬆地將 PDF 提取納入網頁或伺服器端應用程式中。
總體而言,IronPDF 是一款功能強大的 PDF 操作解決方案,提供了將 PDF 轉換、儲存和提取圖像的靈活性,使其適用於文件索引、預覽生成和內容提取等各種使用情境。 然而,如果您的重點僅在於從 PDF 中提取嵌入圖像,探索其他庫可能會提供更專門的解決方案。