import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
// Apply your license key
License.setLicenseKey("YOUR-LICENSE-KEY");
// Set a log path
Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log"));
// Render the HTML as a PDF. Stored in myPdf as type PdfDocument;
PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!");
// Save the PdfDocument to a file
myPdf.saveAs(Paths.get("html_saved.pdf"));
Comment analyser les PDF en Java (Tutoriel du développeur)
Kannapat Udonpant
mai 8, 2023
Mise à jour septembre 15, 2024
Partager:
Cet article va créer un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.
IronPDF - Bibliothèque PDF Java
IronPDF for Java est une bibliothèque Java PDF qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il s'appuie sur le succès d'IronPDF for .NET et offre des fonctionnalités efficaces sur différentes plates-formes. IronPDF for Java utilise le IronPdfEngine qui est rapide et optimisé pour les performances.
Créer un analyseur de fichiers PDF à l'aide d'IronPDF for Java
Conditions préalables
Pour réaliser un projet PDF Parsing en Java, vous aurez besoin des outils suivants :
Java IDE : Vous pouvez utiliser n'importe quel IDE prenant en charge Java. Il existe plusieurs IDE Java disponibles pour le développement. Ici, ce tutoriel utilisera IntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.
Projet Maven : Maven est un gestionnaire de dépendances et permet de gérer le projet Java. Maven pour Java peut être téléchargé depuis le site officiel de Maven. IDE Java IntelliJ a un support intégré pour Maven.
IronPDF - Vous pouvez télécharger et installer IronPDF for Java de plusieurs façons.
Ajout de la dépendance IronPDF dans le fichier pom.xml dans un projet Maven.
Installez manuellement IronPDF en utilisant le fichier JAR dans votre application Java simple.
Slf4j-Simple : Cette dépendance est également nécessaire pour estampiller le contenu d'un document existant. Il peut être ajouté à l'aide du gestionnaire de dépendances Maven dans IntelliJ, ou il peut être directement téléchargé depuis le site web de Maven. Ajoutez la dépendance suivante au fichier pom.xml :
Une fois que toutes les conditions préalables sont installées, la première étape consiste à importer les packages IronPDF nécessaires pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java :
Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF gratuitement dans le cadre d'une version d'essai. Vous pouvez régler la touche comme suit :
License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA
Étape 1 : Analyse d'un document PDF existant
Pour analyser un document existant pour l'extraction de contenu, la classe PdfDocument est utilisée. Sa méthode statique fromFile est utilisée pour analyser un fichier PDF à partir d'un chemin spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :
Étape 2 : Extraire les données textuelles du fichier PDF analysé
IronPDF for Java fournit une méthode facile pour extraire du texte de documents PDF. L'extrait de code suivant permet d'extraire des données textuelles d'un fichier PDF :
Le code ci-dessus produit la sortie indiquée ci-dessous :
Sortie
Étape 3 : Extraire des données textuelles d'une URL ou d'une chaîne HTML
Les capacités d'IronPDF for Java ne se limitent pas aux PDF existants, mais peuvent également créer et analyser un nouveau fichier pour en extraire le contenu. Ici, ce tutoriel créera un fichier PDF à partir d'une URL et en extraira le contenu. L'exemple suivant montre comment réaliser cette tâche :
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
JAVA
Le résultat est le suivant :
Sortie
Étape 4 : Extraire les images du document PDF analysé
IronPDF offre également une option facile pour extraire toutes les images des documents analysés. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
JAVA
La méthode [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) retourne une liste de BufferedImages. Chaque BufferedImage peut ensuite être enregistré sous forme d'images PNG à un emplacement à l'aide de la méthode ImageIO.write. Le fichier PDF analysé contient 34 images et chaque image est parfaitement extraite.
Images extraites
Étape 5 : Extraire les données d'un tableau dans un fichier PDF
Extraire le contenu des limites tabulaires dans un fichier PDF est facilité avec un simple code en une ligne utilisant la [méthode extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText(). L'extrait de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :
Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en utilisant IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.
Pour plus d'informations détaillées sur la manière de travailler avec des fichiers PDF de manière programmatique en Java, veuillez visiter ces exemples de création de fichiers PDF.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Travailler avec des projets Maven dans IntelliJ
SUIVANT > Comment générer un rapport PDF en Java ?
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier