Text aus PDF extrahieren
Als Teil von IronPDFs umfangreicher Sammlung von PDF-Erstellungs- und Bearbeitungsfunktionen erleichtert IronPDF auch die granulare Verarbeitung des Inhalts eines PDF-Dokuments durch seine Inhaltsextraktionsmethoden.
Die Methode extractAllText
ist für alle PdfDocument
-Objekte verfügbar. Der String
, den extractAllText
zurückgibt, enthält den gesamten Text, der auf jeder Seite der PDF-Datei enthalten ist.
Diese Methode ist eine bequeme Methode zur Extraktion von Text auf Dokumentenebene aus PDF-Dateien mit vielen Seiten. So extrahieren Sie Text auf Seitenebene(d.h., nur von einer bestimmten Anzahl von Seiten)verwenden Sie stattdessen die Methode extractTextFromPage
.
Das folgende kurze Codeschnipsel zieht den Text von der ersten Seite eines PDF-Dokuments.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
Wie extrahiere ich Text aus PDF in Java?
- IronPDF for Java Bibliothek für PDF Textextraktion installieren
- Importieren von PDF-Zieldokumenten oder Rendern von URLs in Java
- Nutzen Sie
extractAllText
methode zum Extrahieren von Text aus PDF - Verwenden Sie
extractTextFromPage
methode zur Durchführung der Extraktion auf einer bestimmten Seite - Extrahieren von Text ohne Beeinträchtigung der Original-PDF-Datei