import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
// Apply your license key
License.setLicenseKey("YOUR-LICENSE-KEY");
// Set a log path
Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log"));
// Render the HTML as a PDF. Stored in myPdf as type PdfDocument;
PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!");
// Save the PdfDocument to a file
myPdf.saveAs(Paths.get("html_saved.pdf"));
Dieses Tutorial zeigt Ihnen, wie Sie verwendenIronPDF for Javaum Daten aus einer PDF-Datei zu extrahieren. Das Einrichten der Umgebung, das Importieren der Bibliothek, das Lesen der Eingabedatei und das Extrahieren der benötigten Daten werden alle mit Codebeispielen erklärt.
IronPDF for Java wird von Iron Software entwickelt und gepflegt. Eine der am besten bewerteten Funktionen ist die Extraktion von Text und Daten aus PDF-Dateien sowie aus HTML und URLs.
3. Voraussetzungen
Um IronPDF zum Extrahieren von Daten aus PDF-Dateien zu verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:
Java-Installation: Vergewissern Sie sich, dass Java auf Ihrem System installiert ist und der Pfad in den Umgebungsvariablen festgelegt ist. Wenn Sie Java noch nicht installiert haben, lesen Sie diesedownload-Seite auf der Java-Website für Anweisungen.
Java IDE: Sie müssen eine Java IDE wie Eclipse oder IntelliJ installiert haben. Sie können Eclipse von dieser Seite herunterladenEclipse Download-Seite und IntelliJ von diesemIntelliJ Download-Seite.
IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit zu Ihrem Projekt hinzu. Besuchen Sie dieIronPDF Setup-Anleitung Seite für Anweisungen zur Einrichtung.
Maven-Installation: Maven sollte installiert und in Ihre IDE integriert sein, bevor Sie mit dem PDF-Konvertierungsprozess beginnen. Siehe hierzuMaven-Installations-Tutorial auf JetBrainsbeim Installieren und Integrieren von Maven.
4. IronPDF for Java Installation
Die Installation von IronPDF for Java ist einfach und unkompliziert, sofern alle Voraussetzungen erfüllt sind. In dieser Anleitung wird JetBrains' IntelliJ IDEA verwendet, um die Installation zu demonstrieren und Beispielcode auszuführen.
Das ist zu tun:
Öffnen Sie IntelliJ IDEA: Starten Sie JetBrains IntelliJ IDEA auf Ihrem System.
Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dadurch wird eine geeignete Umgebung für die Installation von IronPDF for Java geschaffen.
Neues Maven-Projekt in IntelliJ
Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.
Benennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen
Ein neues Projekt mit einer pom.xml wird geöffnet, sobald Sie auf Fertig stellen klicken. Dies wird verwendet, um IronPDF Java Maven-Abhängigkeiten hinzuzufügen.
Sobald Sie die Abhängigkeiten in die Datei pom.xml eingefügt haben, erscheint ein kleines Symbol in der rechten oberen Ecke der Datei.
Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren
Installieren Sie die Maven-Abhängigkeiten von IronPDF for Java, indem Sie auf diese Schaltfläche klicken. Je nach Geschwindigkeit Ihrer Internetverbindung sollte dies nur ein paar Minuten dauern.
5. Daten extrahieren
IronPDF ist eine Java-Bibliothek zum Erstellen, Bearbeiten und Extrahieren von Daten aus PDF-Dokumenten. Es bietet eine einfache API, um Text aus PDF-Dateien, URLs und Tabellen zu extrahieren.
5.1. Daten aus PDF-Dokumenten extrahieren
Mit IronPDF for Java können Sie problemlos Textdaten aus PDF-Dokumenten extrahieren. Nachfolgend finden Sie den Beispielcode für die Extraktion von Daten aus einer PDF-Datei.
PDF-Eingang
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
JAVA
Der Quellcode erzeugt die unten angegebene Ausgabe:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
5.2. Daten aus URLs extrahieren
IronPDF for Java konvertiert die URL zur Laufzeit in PDF und extrahiert den Text daraus. Dieses Beispiel zeigt den Quellcode zum Extrahieren von Text aus URLs.
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
JAVA
Extrahierte Webseitendaten
5.3. Daten aus Tabellendaten extrahieren
Das Extrahieren von Tabellendaten aus einer PDF-Datei mit IronPDF for Java ist sehr einfach; sie benötigen lediglich eine PDF-Datei mit einer Tabelle und müssen den unten stehenden Code ausführen.
Beispiel-PDF-Tabelleneingabe
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
JAVA
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
6. Schlussfolgerung
Abschließend hat dieses Tutorial gezeigt, wie man mit IronPDF for Java Daten, insbesondere Tabellendaten, aus einer PDF-Datei extrahieren kann.
Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.
< PREVIOUS Wie extrahiere ich ein Bild aus einer PDF-Datei in Java?
NÄCHSTES > Zusammenführen von zwei PDF-Dateien mit Java