import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
// Apply your license key
License.setLicenseKey("YOUR-LICENSE-KEY");
// Set a log path
Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log"));
// Render the HTML as a PDF. Stored in myPdf as type PdfDocument;
PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!");
// Save the PdfDocument to a file
myPdf.saveAs(Paths.get("html_saved.pdf"));
Comment extraire des données d'un fichier PDF en Java ?
Kannapat Udonpant
mars 15, 2023
Mise à jour septembre 1, 2024
Partager:
Ce tutoriel vous montrera comment utiliserIronPDF for Javapour extraire des données d'un fichier PDF. La configuration de l'environnement, l'importation de la bibliothèque, la lecture du fichier d'entrée et l'extraction des données nécessaires sont toutes expliquées avec des exemples de code.
2. IronPDF for Java PDF Library (Bibliothèque PDF Java)
IronPDF for Java est développé et maintenu par Iron Software. L'une de ses fonctions les plus appréciées est l'extraction de texte et de données à partir de fichiers PDF ainsi que de HTML et d'URL.
3. Conditions préalables
Pour utiliser IronPDF afin d'extraire des données de fichiers PDF, vous devez remplir les conditions préalables suivantes :
Installation de Java: Assurez-vous que Java est installé sur votre système et que son chemin d'accès est défini dans les variables d'environnement. Si vous n'avez pas encore installé Java, reportez-vous à la page suivantepage de téléchargement sur le site web de Java pour les instructions.
Bibliothèque IronPDF: Téléchargez et ajoutez la bibliothèque IronPDF comme dépendance dans votre projet. Visitez le sitePage d'instructions d'installation d'IronPDF pour les instructions d'installation.
Installation de Maven : Maven doit être installé et intégré à votre IDE avant de commencer le processus de conversion PDF. Se référer à ce documentTutoriel d'installation de Maven sur JetBrainssur l'installation et l'intégration de Maven.
4. Installation d'IronPDF for Java
L'installation d'IronPDF for Java est simple et facile, à condition que toutes les conditions requises soient remplies. Ce guide utilise IntelliJ IDEA de JetBrains pour démontrer l'installation et exécuter un exemple de code.
Voici ce qu'il faut faire :
Ouvrir IntelliJ IDEA : Lancer JetBrains IntelliJ IDEA sur votre système.
Créer un projet Maven : Dans IntelliJ IDEA, créer un nouveau projet Maven. Ceci fournira un environnement approprié pour l'installation d'IronPDF for Java.
Nouveau projet Maven dans IntelliJ
Une nouvelle fenêtre apparaît. Saisissez le nom du projet et cliquez sur Terminer.
Nommez le projet Maven et cliquez sur Terminer
Un nouveau projet avec un pom.xml s'ouvrira une fois que vous aurez cliqué sur Finish. Ceci sera utilisé pour ajouter les dépendances IronPDF for Java Maven.
Une fois que vous avez placé les dépendances dans le fichier pom.xml, une petite icône apparaîtra dans le coin supérieur droit du fichier.
Cliquez sur l'icône flottante pour installer automatiquement les dépendances Maven
Installez les dépendances Maven d'IronPDF for Java en cliquant sur ce bouton. Selon la vitesse de votre connexion internet, cette opération ne devrait prendre que quelques minutes.
5. Extraire des données
IronPDF est une bibliothèque Java pour créer, éditer et extraire des données des documents PDF. Il fournit une API simple pour extraire du texte de fichiers PDF, d'URL et de tables.
5.1. Extraire des données de documents PDF
En utilisant IronPDF for Java, vous pouvez facilement extraire des données textuelles de documents PDF. Vous trouverez ci-dessous un exemple de code permettant d'extraire des données d'un fichier PDF.
PDF Input
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
JAVA
Le code source produit la sortie indiquée ci-dessous :
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
5.2. Extraire des données des URL
IronPDF for Java convertit l'URL en PDF en cours d'exécution et en extrait le texte. Cet exemple montrera le code source pour extraire du texte à partir d'URLs.
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
JAVA
Données de page Web extraites
5.3. Extraire les données du tableau
L'extraction des données d'un tableau à partir d'un PDF à l'aide d'IronPDF for Java est très simple ; tout ce dont vous avez besoin, c'est d'un PDF contenant un tableau, et d'exécuter le code ci-dessous.
Entrée d'exemple de tableau PDF
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
JAVA
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
6. Conclusion
En conclusion, ce tutoriel a démontré comment extraire des données, en particulier des données tabulaires d'un fichier PDF, à l'aide d'IronPDF for Java.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Comment extraire une image d'un fichier PDF en Java ?
SUIVANT > Comment fusionner deux fichiers PDF à l'aide de Java
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier