Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
In diesem Artikel wird gezeigt, wie IronPDF for Python, eine der leistungsfähigsten PDF-Bibliotheken, verwendet wird, um jeden in einem PDF-Dokument vorhandenen Text zu extrahieren.
ExtractAllText
methode zum Lesen von Text aus der geöffneten DateiInstallieren Sie die neueste Version von Python von der Python-Download-Seite
Öffnen Sie alle IDE-Tools für Python
.NET Core-Laufzeitumgebung installieren
Installieren Sie die IronPDF for Python-Bibliothek oderherunterladen von der PyPI-Download-Seite
Die IronPDF-Bibliothek lässt sich problemlos in Python integrieren, da diese Sprache im Vergleich zu anderen Sprachen sehr viel dynamischer ist und es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Es verfügt über eine Fülle von vorinstallierten Werkzeugen, darunter PyQT, wxWidgets, kivy und zahlreiche zusätzliche Pakete und Bibliotheken, mit denen sich schnell und sicher eine vollständige grafische Benutzeroberfläche erstellen lässt.
IronPDF for Python ist eine äußerst effiziente Bibliothek, die besonders für die Webentwicklung nützlich ist. Die Verfügbarkeit so vieler Python-Paradigmen für die Webentwicklung, wie Django, Flask und Pyramid, ist teilweise dafür verantwortlich. Diese Frameworks wurden bereits von zahlreichen Websites und Online-Diensten verwendet, darunter Reddit, Mozilla und Spotify.
Fügen Sie die folgenden Import-Anweisungen am Anfang der Quelldateien ein, in denen IronPDF verwendet werden soll, um IronPDF zu importieren:
from ironpdf import *
IronPDF for Python ist zwar kostenlos, versieht aber PDF-Dateien mit einem Wasserzeichen, das mit einem gekachelten Hintergrund versehen ist. Sie müssen der Bibliothek einen legitimen Lizenzschlüssel geben, um IronPDF für die Erstellung wasserzeichenfreier PDFs zu verwenden. Wie man die Bibliothek mit einem Lizenzschlüssel einrichtet, zeigt der folgende Codeschnipsel:
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
Vergewissern Sie sich, dass der Lizenzschlüssel konfiguriert ist, bevor Sie PDF-Dateien erstellen oder Änderungen an deren Inhalt vornehmen. Die Methode LicenseKey
sollte vor allen anderen Codezeilen aufgerufen werden. Aneinen kostenlosen Testlizenzschlüssel erhaltenbesuchen Sie dielizenzierungsseite.
Eine Textdatei namens "Default" kann die von Custom.log erzeugten Protokollmeldungen im Verzeichnis des Python-Skripts speichern. Der folgende Codeausschnitt kann verwendet werden, um die Eigenschaft "LogFilePath" festzulegen und den Namen und den Speicherort der Protokolldatei anzupassen:
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
Die IronPDF for Python-Bibliothek kann PDF-Seiten in PDF-Objekte umwandeln und ermöglicht die Textextraktion aus PDF-Dateien, auch aus gescannten PDF-Dateien. Hier ein Beispiel, das zeigt, wie man mit IronPDF ein vorhandenes PDF liest.
Bei der ersten Methode wird der gesamte in einer PDF-Datei vorhandene Text extrahiert; nachstehend finden Sie ein Beispiel für den Code.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
Wie im obigen Code veranschaulicht, handelt es sich bei der Methode "FromFile" um ein PDF-Reader-Objekt, das die vorhandene PDF-Datei lädt und in PDF-Dokumentobjekte konvertiert. Dieses Objekt kann verwendet werden, um den Text und die Bilder zu lesen, die auf den PDF-Seiten verfügbar sind. Das Objekt bietet eine Methode namens ExtractAllText
, die jeden Text aus der gesamten PDF-Datei extrahiert und den Text in einer Zeichenkette hält, die verarbeitet werden kann. Verwenden Sie dann die Funktion "Drucken", um den Text anzuzeigen.
Anzeigen des Textes
Das Code-Beispiel für die zweite Methode, die zum seitenweisen Extrahieren von Text aus einer PDF-Datei verwendet werden kann. Es ist unten angegeben.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
Die Methode "FromFile" wird verwendet, um die PDF-Datei aus einer vorhandenen Datei zu laden und sie in ein PDF-Dateiobjekt zu konvertieren, wie im obigen Code gezeigt. Eine Methode auf dem PDF-Seitenobjekt namens "ExtractTextFromPage" ruft den gesamten Text einer Seite in einer PDF-Datei ab. Die Seitennummer muss als Parameter angegeben werden, um den Text aus dieser bestimmten Seite zu extrahieren. Nach der Extraktion des Textes kann "page_text" verwendet werden, um die Informationen zu speichern, die verarbeitet werden können.
Sehen Sie sich weitere Beispiele an um Text aus einer PDF-Datei zu extrahieren.
Die IronPDF-Bibliothek hingegen bietet starke Sicherheitsmaßnahmen, um potenzielle Risiken zu verringern. Sie ist nicht auf einen bestimmten Browser zugeschnitten und funktioniert mit allen gängigen Browsern. IronPDF ermöglicht es Programmierern, mit nur wenigen Zeilen Code PDF-Dateien zu erstellen und zu lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den Anforderungen verschiedener Entwickler gerecht zu werden.
IronPDF beinhaltet eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Optionen. Nach dem Erstkauf fallen keine weiteren Kosten an. Diese Lizenzen können in Entwicklungs-, Staging- und Produktionsumgebungen verwendet werden. Erfahren Sie mehr über die Produktlizenzierung.
Herunterladen das Softwareprodukt.
10 .NET API-Produkte für Ihre Bürodokumente