Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Das Extrahieren von Bildern aus PDFs ist eine gängige Aufgabe für viele Entwickler, sei es für die Dateiverarbeitung, Datenauswertung oder das Erstellen von Dokumentvorschauen. In diesem Artikel untersuchen wir, wie man Bilder aus einer PDF-Datei extrahiert und speichert, indem manIronPDFeiner leistungsstarken PDF-Bibliothek, die für .NET verfügbar ist, und wie sie in einNode.jsUmgebung über sein NPM-Paket.
Richten Sie eine Node.js-Anwendung ein.
Installieren Sie IronPDF NPM-Pakete.
Bereiten Sie ein PDF für die Extraktion vor.
Wenn Sie Node.js noch nicht installiert haben, laden Sie es von https://nodejs.org/ herunter und installieren Sie es.
Das IronPDF NPM-Paket ist ein Node.js-Wrapper für die IronPDF-Bibliothek, ursprünglich für .NET-Umgebungen entwickelt. Es ermöglicht Entwicklern, die leistungsstarken PDF-Manipulationsfähigkeiten von IronPDF in Node.js-Anwendungen zu nutzen. Dieses Paket ist besonders nützlich für die Arbeit mit PDF-Dokumenten und bietet eine Reihe von Funktionen, die in vielen praxisnahen Anwendungen wie Dateiverarbeitung, Berichterstellung und mehr nützlich sein können.
PDF-Erstellung:
IronPDF kann PDFs aus verschiedenen Quellen erstellen, einschließlich HTML-Inhalten, Bildern oder sogar unformatiertem Text. Diese Funktion ist äußerst nützlich für Webanwendungen, die Berichte, Rechnungen oder andere Dokumente im PDF-Format erstellen müssen.
IronPDF unterstützt das Styling und die Formatierung von HTML-Inhalten, was es zu einer hervorragenden Wahl für die Umwandlung von Webseiten in gut strukturierte PDF-Dokumente macht.
PDF-Bearbeitung:
IronPDF ermöglicht es Ihnen, bestehende PDFs zu bearbeiten, indem Sie Text, Bilder oder Anmerkungen hinzufügen und das Layout ändern. Sie können auch mehrere PDFs zu einem einzigen zusammenführen, ein großes Dokument in kleinere Teile aufteilen oder sogar Seiten innerhalb eines PDFs neu anordnen.
Diese Funktionen machen es ideal für Anwendungen, die PDFs dynamisch ändern müssen, wie Dokumentenmanagementsysteme oder Anwendungen, die eine automatisierte Dokumentenerstellung erfordern.
PDF-Konvertierung:
Eine der herausragenden Eigenschaften von IronPDF ist seine Fähigkeit, PDFs in verschiedene andere Formate umzuwandeln. Zum Beispiel kann es PDF-Dokumente in Bilder umwandeln.(PNG, JPEG), HTML- und Word-Formate.
Diese Funktion ist besonders nützlich, wenn Sie den Inhalt eines PDFs in verschiedenen Formaten präsentieren oder Bildvorschauen von PDFs für Benutzeroberflächen erstellen müssen.
Extrahieren von Text und Bildern:
Während IronPDF keine direkte REST-API zum Extrahieren von Rohbildern aus einem PDF bietet, gibt es eine Methode zum Rendern von PDF-Seiten als Bilder.(wie PNG oder JPEG), die als indirekte Methode zur Extrahierung von Inhalten verwendet werden kann.
Sie können jede Seite des PDF-Dokuments in ein Bild rendern, um die visuelle Darstellung des Dokuments effektiv zu erfassen und für die weitere Verwendung oder Anzeige zu speichern.
Rendern von Seiten als Bilder:
IronPDF kann PDF-Seiten in hochqualitative Bilder umwandeln. Zum Beispiel können Sie ein mehrseitiges PDF in eine Reihe von PNGs umwandeln, eines für jede Seite. Dies ist besonders nützlich, wenn Sie die Seiten als Miniaturansichten oder in einem bildbasierten Format anzeigen müssen. Es unterstützt verschiedene Bildformattypen.
Sicherheit und Verschlüsselung:
IronPDF unterstützt die Arbeit mit verschlüsselten PDFs. Es ermöglicht Ihnen, gesicherte Dokumente zu öffnen, zu entschlüsseln und zu bearbeiten, was für die Arbeit mit Dokumenten, die Passwörter oder andere Schutzformen erfordern, unerlässlich ist.
Plattformübergreifende Kompatibilität:
IronPDF ist mit sowohl Windows- als auch Linux-Umgebungen kompatibel, was es zu einem vielseitigen Werkzeug für serverseitige Anwendungen macht. Der Node.js-Wrapper vereinfacht den Prozess der Integration von IronPDF in Node.js-basierte Anwendungen.
Um zu beginnen, richten Sie den Node.js-Projektordner ein, indem Sie einen Ordner auf dem lokalen Computer erstellen und Visual Studio Code öffnen.
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
Installieren Sie das IronPDF Node.js-Paket und dessen unterstützendes Paket basierend auf Windows- oder Linux-Maschinen.
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
Das Paket @ironsoftware/ironpdf-engine-windows-x64
ist eine plattformspezifische Version der IronPDF-Bibliothek, die speziell für Windows-64-Bit-Systeme entwickelt wurde.
Die IronPDF-Bibliothek hat plattformspezifische Abhängigkeiten. Damit Node.js effizient mit IronPDF funktioniert, benötigt es native Binärdateien, die auf bestimmte Betriebssysteme und Architekturen abgestimmt sind. In diesem Fall stellt das Paket @ironsoftware/ironpdf-engine-windows-x64 die native Engine für Windows 64-Bit Umgebungen bereit.
Durch die Verwendung dieses Windows-spezifischen Pakets stellen Sie sicher, dass die IronPDF-Bibliothek optimal auf Windows-basierten Systemen funktioniert. Es stellt sicher, dass alle nativen Abhängigkeiten, wie jene im Zusammenhang mit der Darstellung und Manipulation von PDFs, kompatibel sind und reibungslos auf Ihrem Computer funktionieren.
Statt die benötigten Binärdateien für 64-Bit-Windows-Systeme manuell zu verwalten und zu konfigurieren, automatisiert die Installation des @ironsoftware/ironpdf-engine-windows-x64 Pakets diesen Prozess. Dies spart Zeit und beseitigt potenzielle Kompatibilitätsprobleme.
IronPDF unterstützt auch andere Plattformen wie macOS und Linux. Die Bereitstellung plattformspezifischer Pakete ermöglicht Entwicklern, das richtige Binary für ihr Betriebssystem zu verwenden und die allgemeine Stabilität und Zuverlässigkeit der Bibliothek zu verbessern.
Wenn Sie bestimmte IronPDF-Funktionen nutzen(wie das Rendern von PDFs in Bilder oder das Durchführen komplexer Dokumentenmanipulationen), die native Engine wird benötigt. Das @ironsoftware/ironpdf-engine-windows-x64-Paket enthält diese Engine speziell für Windows-basierte Umgebungen.
Rufen Sie nun die PDF-Datei ab, die extrahiert werden muss. Kopieren Sie den Pfad, der in der Anwendung verwendet werden soll. Dieser Artikel verwendet die folgende Datei.
Verwenden Sie nun die Datei aus dem oben genannten Schritt und schreiben Sie den folgenden Codeausschnitt in eine app.js-Datei im Node.js-Projektordner.
const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
(async () => {
// Extracting Image and Text content from Pdf Documents
// Import existing PDF document
const pdf = await PdfDocument.fromFile("ironPDF.pdf");
// Get all text to put in a search index and log it
const text = await pdf.extractText();
console.log('All Text:'+text);
// Get all Images
const imagesBuffer = await pdf.extractRawImages();
console.log('images count:'+imagesBuffer.length);
fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
// this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
App ausführen:
node app.js
Dieses Code-Snippet-Beispiel zeigt, wie die IronPDF-Bibliothek in Node.js verwendet wird, um Text und Bilder zu extrahieren.(JPG-Format)aus einem PDF-Dokument.
Lizenz Einrichtung: Die IronPdfGlobalConfig wird verwendet, um den Lizenzschlüssel für IronPDF festzulegen, der erforderlich ist, um die Funktionen der Bibliothek zu nutzen.
PDF-Laden: Der Code lädt ein PDF-Dokument(ironPDF.pdf)unter Verwendung von PdfDocument.fromFile() methode. Dies ermöglicht dem Programm, mit dem Inhalt der PDF-Datei zu arbeiten.
Text Extraction: Die extractText()Die Methode wird verwendet, um den gesamten Text aus dem geladenen PDF zu extrahieren. Dieser Text kann für Aufgaben wie das Indexieren oder Durchsuchen des Dokuments verwendet werden.
Bildextraktion: Die extractRawImages()Die Methode wird verwendet, um Rohbilder aus dem PDF zu extrahieren. Diese Bilder werden als Puffer zurückgegeben, der gespeichert oder weiterverarbeitet werden kann.
Bilder speichern: Die extrahierten Bilder werden im lokalen Dateisystem als JPG-Dateien mit Nodes fs.writeFileSync gespeichert.() methode.
Endausgabe: Nachdem die Extraktion abgeschlossen ist, gibt das Programm den extrahierten Text und die Anzahl der extrahierten Bilder aus und speichert anschließend das erste Bild.
Der Code demonstriert, wie man mit PDF-Dateien interagiert, indem man IronPDF verwendet, um Inhalte zu extrahieren und sie innerhalb einer Node.js-Umgebung zu verarbeiten.
IronPDF Node.js benötigt einen Lizenzschlüssel, um zu funktionieren. Entwickler können eine Testlizenz mit ihrer E-Mail-ID von derlizenzseite. Sobald Sie die E-Mail-ID angeben, wird der Schlüssel an die E-Mail geliefert und kann in der Anwendung wie unten verwendet werden.
const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
Die Verwendung von IronPDF in Node.js zum Extrahieren von Bildern aus PDFs bietet eine robuste und effiziente Möglichkeit, PDF-Inhalte zu verarbeiten. Obwohl IronPDF keine direkte Bildextraktion wie einige spezialisierte Tools bietet, ermöglicht es Ihnen, PDF-Seiten als Bilder zu rendern, was nützlich ist, um visuelle Darstellungen des Dokuments zu erstellen.
Die Fähigkeit der Bibliothek, sowohl Text als auch Bilder aus PDFs auf einfache Weise zu extrahieren, macht sie zu einem wertvollen Werkzeug für Anwendungen, die PDF-Inhalte verarbeiten und manipulieren müssen. Die Integration mit Node.js ermöglicht es Entwicklern, die PDF-Extraktion einfach in Web- oder serverseitige Anwendungen zu integrieren.
Insgesamt ist IronPDF eine leistungsstarke Lösung zur PDF-Bearbeitung, die Flexibilität beim Konvertieren, Speichern und Extrahieren von Bildern aus PDFs bietet und sich somit für eine Vielzahl von Anwendungsfällen wie Dokumentenindexierung, Vorschauerstellung und Inhaltsextraktion eignet. Wenn Ihr Fokus jedoch ausschließlich darauf liegt, eingebettete Bilder aus PDFs zu extrahieren, könnten zusätzliche Bibliotheken spezialisiertere Lösungen bieten.
10 .NET API-Produkte für Ihre Bürodokumente