UTILISATION D'IRONPDF FOR JAVA

Comment lire un fichier PDF en Java ?

Jordi Bardia
Jordi Bardia
février 26, 2023
Mise à jour septembre 1, 2024
Partager:

Cet article explorera comment créer un lecteur PDF pour ouvrir un fichier PDF dans votre application logicielle par programmation. Pour accomplir cette tâche efficacement, IronPDF for Java est l'une de ces bibliothèques système qui permet d'ouvrir et de lire des fichiers PDF à l'aide du nom de fichier dans les programmes Java.

IronPDF

La bibliothèque IronPDF - Java est construite sur le Framework .NET déjà réussi. Cela fait de IronPDF un outil polyvalent pour travailler avec des documents PDF par rapport à d'autres bibliothèques de classes telles qu'Apache PDFBox. Il offre la possibilité d'extraire et d'analyser le contenu, de charger du texte et de charger des images. Il offre également des options pour personnaliser les pages PDF telles que la mise en page, les marges, l'en-tête et le pied de page, l'orientation de la page, et bien plus encore.

En plus de cela, IronPDF prend également en charge la conversion d'autres formats de fichiers, la protection des PDFs par mot de passe, la signature numérique, la fusion et la division des documents PDF.

Comment lire des fichiers PDF en Java ?

Conditions préalables

Pour utiliser IronPDF afin de créer un lecteur PDF Java, il est nécessaire de s'assurer que les composants suivants sont installés sur l'ordinateur :

  1. JDK - Java Development Kit est requis pour construire et exécuter des programmes Java. Si ce n'est pas installé, téléchargez-le depuis le site d'Oracle.

  2. IDE - Environnement de Développement Intégré est un logiciel qui aide à écrire, éditer et déboguer un programme. Téléchargez n'importe quel IDE pour Java, par exemple Eclipse, NetBeans, IntelliJ.

  3. Maven - Maven est un outil d'automatisation qui aide à télécharger des bibliothèques depuis le Répertoire Central. Téléchargez-le depuis le site Web d'Apache Maven.

  4. IronPDF - Enfin, IronPDF est nécessaire pour lire le fichier PDF en Java. Il doit être ajouté en tant que dépendance dans votre projet Java Maven. Incluez l'artifact IronPDF avec la dépendance slf4j dans le fichier pom.xml comme indiqué dans l'exemple ci-dessous :
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

Ajout des importations nécessaires

Tout d'abord, ajoutez le code suivant au fichier source Java pour référencer toutes les méthodes requises d'IronPDF. L'importation d'org est facultative dans cet exemple.

import com.ironsoftware.ironpdf.*;
JAVA

Ensuite, configurez IronPDF avec une clé de licence valide pour utiliser sa méthode. Invoquez la méthode setLicenseKey dans la méthode principale.

License.setLicenseKey("Your license key");
JAVA

Note : Vous pouvez obtenir une clé de licence d'essai gratuite pour créer, lire et imprimer des PDFs.

Lire un fichier PDF existant en Java

Pour lire des fichiers PDF, il doit y avoir des fichiers PDF, ou l'on peut en créer un. Cet article utilisera un fichier PDF déjà créé. Le code est simple et consiste en un processus en deux étapes pour extraire le texte du document.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

Dans le code ci-dessus, fromFile ouvre un document PDF. La méthode Paths.get obtient le répertoire du fichier et est prête à extraire le contenu du fichier. Ensuite, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) lit tout le texte dans le document.

Le résultat est le suivant :

Comment Lire un Fichier PDF en Java, Figure 1 : Lecture du Texte PDF en Sortie

Lecture du texte de sortie du PDF

Lire le texte d'une page spécifique

IronPDF peut également lire le contenu d'une page spécifique d'un PDF. La méthode extractTextFromPage utilise un objet PageSelection pour accepter une plage de pages à partir desquelles le texte sera lu.

Dans l'exemple suivant, le texte est extrait de la deuxième page du document PDF. PageSelection.singlePage prend l'index de la page qui doit être extraite.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

Comment lire un fichier PDF en Java, Figure 2 : Lecture du texte PDF en sortie

Lecture du texte de sortie du PDF

D'autres méthodes disponibles dans la classe PageSelection qui peuvent être utilisées pour extraire le texte de différentes pages incluent : [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage(), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage(), [pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int), et [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages().

Lire le texte d'un fichier PDF nouvellement généré

Le texte de recherche peut également être effectué à partir d'un fichier PDF nouvellement généré à partir d'un fichier HTML ou d'une URL. L'exemple de code suivant génère des PDF à partir d'une URL et extrait tout le texte du site web.

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

Comment Lire un Fichier PDF en Java, Figure 2 : Lecture à partir d'un Nouveau Fichier

Lire à partir d'un nouveau fichier

IronPDF peut également être utilisé pour extraire des images à partir de fichiers PDF.

Le code complet est le suivant :

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

Résumé

Cet article explique comment ouvrir et lire des PDF en Java en utilisant IronPDF.

IronPDF permet de créer facilement des PDF à partir de HTML ou d'URL et de les convertir à partir de différents formats de fichiers. Il permet également d'effectuer des tâches PDF rapidement et facilement.

Essayez IronPDF pendant 30 jours avec un essai gratuit et découvrez à quel point il fonctionne bien pour vous en production. Explorez les options de licence commerciale pour IronPDF qui commencent seulement à partir de $749.

Jordi Bardia
Ingénieur logiciel
Jordi maîtrise parfaitement Python, C# et C++. Lorsqu'il ne met pas à profit ses compétences chez Iron Software, il se consacre à la programmation de jeux. Partageant des responsabilités en matière de tests de produits, de développement de produits et de recherche, Jordi apporte une valeur ajoutée considérable à l'amélioration continue des produits. Cette expérience variée le stimule et l'engage, et il dit que c'est l'un des aspects qu'il préfère dans son travail chez Iron Software. Jordi a grandi à Miami, en Floride, et a étudié l'informatique et les statistiques à l'université de Floride.
< PRÉCÉDENT
Comment diviser des fichiers PDF en Java
SUIVANT >
HTML2PDF Java (Tutoriel d'exemple de code)