UTILISATION D'IRONPDF FOR JAVA

Comment analyser les PDF en Java (Tutoriel du développeur)

Kannaopat Udonpant
Kannapat Udonpant
mai 8, 2023
Mise à jour septembre 15, 2024
Partager:

Cet article va créer un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.

IronPDF - Bibliothèque PDF Java

IronPDF for Java est une bibliothèque Java PDF qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il s'appuie sur le succès d'IronPDF for .NET et offre des fonctionnalités efficaces sur différentes plates-formes. IronPDF for Java utilise le IronPdfEngine qui est rapide et optimisé pour les performances.

Avec IronPDF, vous pouvez extraire du texte et des images à partir de fichiers PDF et il permet également de créer des PDF à partir de diverses sources y compris des chaînes HTML, des fichiers, des URL et des images. De plus, vous pouvez facilement ajouter du nouveau contenu, insérer des signatures avec IronPDF, et intégrer des métadonnées dans les documents PDF. IronPDF est spécifiquement conçu pour Java 8+, Scala et Kotlin, et est compatible avec les plateformes Windows, Linux et Cloud.

Créer un analyseur de fichiers PDF à l'aide d'IronPDF for Java

Conditions préalables

Pour réaliser un projet PDF Parsing en Java, vous aurez besoin des outils suivants :

  1. Java IDE : Vous pouvez utiliser n'importe quel IDE prenant en charge Java. Il existe plusieurs IDE Java disponibles pour le développement. Ici, ce tutoriel utilisera IntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.

  2. Projet Maven : Maven est un gestionnaire de dépendances et permet de gérer le projet Java. Maven pour Java peut être téléchargé depuis le site officiel de Maven. IDE Java IntelliJ a un support intégré pour Maven.

  3. IronPDF - Vous pouvez télécharger et installer IronPDF for Java de plusieurs façons.

    • Ajout de la dépendance IronPDF dans le fichier pom.xml dans un projet Maven.
     :ProductInstall
  1. Slf4j-Simple : Cette dépendance est également nécessaire pour estampiller le contenu d'un document existant. Il peut être ajouté à l'aide du gestionnaire de dépendances Maven dans IntelliJ, ou il peut être directement téléchargé depuis le site web de Maven. Ajoutez la dépendance suivante au fichier pom.xml :
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

Ajouter les importations nécessaires

Une fois que toutes les conditions préalables sont installées, la première étape consiste à importer les packages IronPDF nécessaires pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java :

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Clé de licence

Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF gratuitement dans le cadre d'une version d'essai. Vous pouvez régler la touche comme suit :

License.setLicenseKey("YOUR-KEY");
JAVA

Étape 1 : Analyse d'un document PDF existant

Pour analyser un document existant pour l'extraction de contenu, la classe PdfDocument est utilisée. Sa méthode statique fromFile est utilisée pour analyser un fichier PDF à partir d'un chemin spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 1 : Document analysé

Document analysé

Étape 2 : Extraire les données textuelles du fichier PDF analysé

IronPDF for Java fournit une méthode facile pour extraire du texte de documents PDF. L'extrait de code suivant permet d'extraire des données textuelles d'un fichier PDF :

String extracted_text = parsedDocument.extractAllText();
JAVA

Le code ci-dessus produit la sortie indiquée ci-dessous :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 2 : Sortie

Sortie

Étape 3 : Extraire des données textuelles d'une URL ou d'une chaîne HTML

Les capacités d'IronPDF for Java ne se limitent pas aux PDF existants, mais peuvent également créer et analyser un nouveau fichier pour en extraire le contenu. Ici, ce tutoriel créera un fichier PDF à partir d'une URL et en extraira le contenu. L'exemple suivant montre comment réaliser cette tâche :

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

Le résultat est le suivant :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 3 : Sortie

Sortie

Étape 4 : Extraire les images du document PDF analysé

IronPDF offre également une option facile pour extraire toutes les images des documents analysés. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

La méthode [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) retourne une liste de BufferedImages. Chaque BufferedImage peut ensuite être enregistré sous forme d'images PNG à un emplacement à l'aide de la méthode ImageIO.write. Le fichier PDF analysé contient 34 images et chaque image est parfaitement extraite.

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 4 : Images extraites

Images extraites

Étape 5 : Extraire les données d'un tableau dans un fichier PDF

Extraire le contenu des limites tabulaires dans un fichier PDF est facilité avec un simple code en une ligne utilisant la [méthode extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText(). L'extrait de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 5 : Tableau dans un PDF

Tableau dans le PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

Le résultat est le suivant :

Comment analyser un PDF en Java (Tutoriel de développeur), Figure 6 : Résultat

Sortie

Conclusion

Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en utilisant IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.

Pour plus d'informations détaillées sur la manière de travailler avec des fichiers PDF de manière programmatique en Java, veuillez visiter ces exemples de création de fichiers PDF.

La bibliothèque IronPDF for Java est gratuite à des fins de développement avec une version d'essai gratuite disponible. Toutefois, pour un usage commercial, il peut être licencié par IronSoftware, à partir de $749.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Travailler avec des projets Maven dans IntelliJ
SUIVANT >
Comment générer un rapport PDF en Java ?