VERWENDUNG VON IRONPDF FOR JAVA

Wie extrahiert man Daten aus PDF in Java?

Aktualisiert 1. September 2024
Teilen Sie:

Dieses Tutorial zeigt Ihnen, wie Sie verwendenIronPDF for Javaum Daten aus einer PDF-Datei zu extrahieren. Das Einrichten der Umgebung, das Importieren der Bibliothek, das Lesen der Eingabedatei und das Extrahieren der benötigten Daten werden alle mit Codebeispielen erklärt.

2. IronPDF for Java PDF-Bibliothek

IronPDF ist eine Softwarebibliothek, die Entwicklern die Möglichkeit bietet, PDFs zu erzeugen, zu bearbeiten undextrahieren von Daten aus PDF-Dateien mit IronPDF for Javainnerhalb ihrer Java-Anwendungen. Sie ermöglicht es IhnenpDFs aus HTML-Dokumenten erstellen, Bilder und mehr, sowiemehrere PDFs zusammenführen, pDF-Dateien aufteilen, und bestehende PDFs bearbeiten. IronPDF bietet auch die Möglichkeit, PDFs zu sichern mitpasswortschutz-Funktionen undhinzufügen digitaler Signaturen zu PDFs, unter anderem Funktionen.

IronPDF for Java wird von Iron Software entwickelt und gepflegt. Eine der am besten bewerteten Funktionen ist die Extraktion von Text und Daten aus PDF-Dateien sowie aus HTML und URLs.

3. Voraussetzungen

Um IronPDF zum Extrahieren von Daten aus PDF-Dateien zu verwenden, müssen Sie die folgenden Voraussetzungen erfüllen:

  1. Java-Installation: Vergewissern Sie sich, dass Java auf Ihrem System installiert ist und der Pfad in den Umgebungsvariablen festgelegt ist. Wenn Sie Java noch nicht installiert haben, lesen Sie diesedownload-Seite auf der Java-Website für Anweisungen.

  2. Java IDE: Sie müssen eine Java IDE wie Eclipse oder IntelliJ installiert haben. Sie können Eclipse von dieser Seite herunterladenEclipse Download-Seite und IntelliJ von diesemIntelliJ Download-Seite.

  3. IronPDF-Bibliothek: Laden Sie die IronPDF-Bibliothek herunter und fügen Sie sie als Abhängigkeit zu Ihrem Projekt hinzu. Besuchen Sie dieIronPDF Setup-Anleitung Seite für Anweisungen zur Einrichtung.

  4. Maven-Installation: Maven sollte installiert und in Ihre IDE integriert sein, bevor Sie mit dem PDF-Konvertierungsprozess beginnen. Siehe hierzuMaven-Installations-Tutorial auf JetBrainsbeim Installieren und Integrieren von Maven.

4. IronPDF for Java Installation

Die Installation von IronPDF for Java ist einfach und unkompliziert, sofern alle Voraussetzungen erfüllt sind. In dieser Anleitung wird JetBrains' IntelliJ IDEA verwendet, um die Installation zu demonstrieren und Beispielcode auszuführen.

Das ist zu tun:

Öffnen Sie IntelliJ IDEA: Starten Sie JetBrains IntelliJ IDEA auf Ihrem System.

Erstellen Sie ein Maven-Projekt: Erstellen Sie in IntelliJ IDEA ein neues Maven-Projekt. Dadurch wird eine geeignete Umgebung für die Installation von IronPDF for Java geschaffen.

So extrahieren Sie Daten aus PDF in Java, Abbildung 1: Neues Maven-Projekt in IntelliJ

Neues Maven-Projekt in IntelliJ

Es erscheint ein neues Fenster. Geben Sie den Namen des Projekts ein und klicken Sie auf Fertig stellen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 2: Nennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen

Benennen Sie das Maven-Projekt und klicken Sie auf Fertigstellen

Ein neues Projekt mit einer pom.xml wird geöffnet, sobald Sie auf Fertig stellen klicken. Dies wird verwendet, um IronPDF Java Maven-Abhängigkeiten hinzuzufügen.

Wie man Daten aus PDFs in Java extrahiert, Abbildung 3: Die pom.xml-Datei

Die pom.xml-Datei

Fügen Sie die folgenden Abhängigkeiten in die Datei pom.xml ein oder laden Sie die JAR-Datei von derIronPDF-Bibliotheksseite auf Sonatype Central.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.2.8</version>
</dependency>

Sobald Sie die Abhängigkeiten in die Datei pom.xml eingefügt haben, erscheint ein kleines Symbol in der rechten oberen Ecke der Datei.

Wie man Daten aus PDF in Java extrahiert, Abbildung 4: Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren

Klicken Sie auf das schwebende Symbol, um die Maven-Abhängigkeiten automatisch zu installieren

Installieren Sie die Maven-Abhängigkeiten von IronPDF for Java, indem Sie auf diese Schaltfläche klicken. Je nach Geschwindigkeit Ihrer Internetverbindung sollte dies nur ein paar Minuten dauern.

5. Daten extrahieren

IronPDF ist eine Java-Bibliothek zum Erstellen, Bearbeiten und Extrahieren von Daten aus PDF-Dokumenten. Es bietet eine einfache API, um Text aus PDF-Dateien, URLs und Tabellen zu extrahieren.

5.1. Daten aus PDF-Dokumenten extrahieren

Mit IronPDF for Java können Sie problemlos Textdaten aus PDF-Dokumenten extrahieren. Nachfolgend finden Sie den Beispielcode für die Extraktion von Daten aus einer PDF-Datei.

Datenextraktion aus PDF in Java, Abbildung 5: PDF-Eingabe

PDF-Eingang

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

Der Quellcode erzeugt die unten angegebene Ausgabe:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. Daten aus URLs extrahieren

IronPDF for Java konvertiert die URL zur Laufzeit in PDF und extrahiert den Text daraus. Dieses Beispiel zeigt den Quellcode zum Extrahieren von Text aus URLs.

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

Daten aus PDF in Java extrahieren, Abbildung 6: Extrahierte Webseitendaten

Extrahierte Webseitendaten

5.3. Daten aus Tabellendaten extrahieren

Das Extrahieren von Tabellendaten aus einer PDF-Datei mit IronPDF for Java ist sehr einfach; sie benötigen lediglich eine PDF-Datei mit einer Tabelle und müssen den unten stehenden Code ausführen.

Wie man Daten aus PDF in Java extrahiert, Abbildung 7: Beispiel einer PDF-Tabelleneingabe

Beispiel-PDF-Tabelleneingabe

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Schlussfolgerung

Abschließend hat dieses Tutorial gezeigt, wie man mit IronPDF for Java Daten, insbesondere Tabellendaten, aus einer PDF-Datei extrahieren kann.

Weitere Informationen finden Sie in dertext aus einem PDF-Beispiel extrahieren auf der IronPDF-Website.

IronPDF ist eine Bibliothek mit einerdetails zur kommerziellen Lizenzbeginnend mit $749. Sie können es jedoch in der Produktion mit einerkostenlose Testversion mit IronPDF-Testlizenz.

< PREVIOUS
Wie extrahiere ich ein Bild aus einer PDF-Datei in Java?
NÄCHSTES >
Zusammenführen von zwei PDF-Dateien mit Java