from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Dieser Artikel behandelt, wie Sie mit der IronPDF-Bibliothek für Python Textdaten aus PDF-Rechnungsdateien extrahieren können.
Extrahieren von Rechnungsdaten aus PDF-Dateien in Python
Installieren Sie die Python-Bibliothek zur Extraktion von Daten aus PDF-Rechnungen.
Verwenden Sie die Methode PdfDocument.FromFile, um eine PDF-Datei zu öffnen.
Extrahieren Sie alle Daten aus der Rechnung mit der Methode "ExtractAllText".
Verwenden Sie die Methode "print", um alle aus der Rechnung extrahierten Daten zu drucken.
Extrahieren Sie spezifische Daten aus Rechnungsdaten.
1. IronPDF
IronPDF for Python ist eine robuste Bibliothek für Python, die als Brücke zwischen Python-Anwendungen und PDF-Dokumenten dient. Dieses vielseitige Werkzeug bietet Entwicklern die Möglichkeit, in ihren Python-Projekten mühelos PDF-Dateien zu erstellen, zu bearbeiten und mit ihnen zu interagieren. Hier sind einige der herausragenden Funktionen, die IronPDF zu einer wertvollen Bereicherung machen:
PDF-Erstellung:IronPDF ermöglicht die dynamische Erstellung von PDF-Dateien von Grund auf, sodass Entwickler programmatisch PDFs mit benutzerdefiniertem Inhalt, Styling und Layout erstellen können.
HTML zu PDF-Konvertierung:Es kann HTML-Inhalte, einschließlich Webseiten, in hochwertige PDFs umwandeln, wobei das Layout und die Formatierung des ursprünglichen HTML beibehalten werden, was besonders nützlich für das Erstellen von Berichten und Dokumentationen ist.
PDF-Bearbeitung:Entwickler können vorhandene PDFs einfach bearbeiten, indem sie Text, Bilder und interaktive Elemente hinzufügen, ändern oder entfernen, was es zu einem leistungsstarken Werkzeug für die Dokumentbearbeitung macht.
PDF-Formulare:Es unterstützt die Erstellung und das Ausfüllen von interaktiven PDF-Formularen, was es ideal für Anwendungen macht, die Benutzereingaben und Datenerfassung erfordern.
Digitale Signaturen:Sie können digitale Signaturen zu PDF-Dokumenten hinzufügen, um die Integrität und Authentizität Ihrer Dateien zu gewährleisten, was für rechtliche und Sicherheitszwecke von entscheidender Bedeutung ist.
PDF-Datenextraktion:IronPDF bietet Extraktionsfähigkeiten, um Informationen in PDFs zu schützen.
2. Einrichten der Umgebung
Das Einrichten der Umgebung für IronPDF for Python erfordert einige Schritte, um sicherzustellen, dass Sie die Bibliothek effektiv nutzen können. Hier finden Sie eine schrittweise Anleitung:
Erstellen Sie ein neues Python-Projekt in PyCharm und erstellen Sie eine virtuelle Umgebung oder verwenden Sie einen vorhandenen Interpreter.
Installieren Sie IronPDF über die Befehlszeile, indem Sie den folgenden Befehl im Terminal ausführen:
pip installieren ironpdf
IronPDF von der Kommandozeile aus installieren
3. Extrahieren von Daten aus Rechnungen mit IronPDF
In diesem Abschnitt wird gezeigt, wie Daten aus dem Rechnungsformat und dem Ausgabeformat mit der Python-Bibliothek IronPDF extrahiert werden können. Der folgende Code extrahiert alle Daten aus der Rechnung und gibt sie in der Konsole aus.
Beispiel-Rechnung
Die Musterrechnung
from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON
Der obige Code lädt eine bestimmte PDF-Datei mit dem Namen "INV_2022_00001.pdf" mit Hilfe der Methode PdfDocument.FromFile. Anschließend extrahiert es Daten über den gesamten Textinhalt aus dem geladenen PDF-Dokument und speichert sie in der Variablen all_text. Schließlich wird der extrahierte Text mit der Funktion print auf der Konsole ausgegeben. Im Wesentlichen automatisiert dieser Code den Prozess der Extraktion von strukturierten und unstrukturierten Textdaten aus einer PDF-Datei und macht sie für die weitere Verarbeitung oder Analyse in einer Python-Umgebung zugänglich.
3.1. Ausgabe
Der Text von der Rechnungsausgabe in die Konsole
4. Bestimmte Daten aus der Rechnung extrahieren
Mit IronPDF ist die Extraktion von Rechnungsdaten ein recht einfacher Prozess, wie wir im obigen Beispiel sehen. Das Extrahieren von Daten wie Rechnungsnummer und Betrag aus den PDF-Rechnungsdaten kann ein kniffliger Prozess sein, aber mit IronPDF und Hilfe der Python Open-Source-Bibliothek re kann es erreicht werden. Der folgende Code extrahiert Daten aus PDF-Rechnungen und druckt sie in der Konsole aus.
Dieses Code-Snippet verwendet Python und die IronPDF-Bibliothek, um Daten aus einem PDF-Dokument zu extrahieren. Es beginnt mit dem Import der erforderlichen Bibliotheken und der Definition von Mustern für reguläre Ausdrücke zur Identifizierung einer Rechnungsnummer und eines Gesamtbetrags innerhalb des Textinhalts der PDF-Datei. Der Code lädt dann die Ziel-PDF-Datei, extrahiert den gesamten Text und sucht dann nach Übereinstimmungen mit den definierten Mustern.
Bei erfolgreichen Übereinstimmungen werden die entsprechenden Werte für die Rechnungsnummer und den Betrag gespeichert; andernfalls wird "Nicht gefunden" zugewiesen. Schließlich drucken das Skript und die Ausgabedatei die extrahierte Rechnungsnummer und den Betrag in die Konsole, wodurch eine effiziente Methode zur Automatisierung der Extraktion spezifischer Daten aus PDF-Dokumenten geboten wird, eine Aufgabe, die häufig in verschiedenen Datenverarbeitungs- und Buchhaltungsanwendungen vorkommt.
4.1. Ausgabe
Der Ausgabetext
5. Schlussfolgerung
In der heutigen schnelllebigen Geschäftswelt ist Python ein hervorragender Verbündeter für Unternehmen, die ihre Finanzvorgänge durch die Automatisierung der Extraktion wichtiger Daten aus PDF-Rechnungen rationalisieren möchten. Durch die Nutzung der Fähigkeiten von Python und der IronPDF-Bibliothek können Unternehmen die manuelle Dateneingabe erheblich reduzieren, Fehler minimieren, Zeit sparen und die Gesamtproduktivität bei der Verwaltung von Rechnungen steigern. IronPDF ist mit seinen vielseitigen Funktionen wie PDF-Erzeugung, HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, Zusammenführung, Aufteilung, Formularverarbeitung, digitale Signaturen und genaue Datenextraktion ein leistungsstarkes Werkzeug für diese Aufgaben.
Python-Entwickler können IronPDF durch einfache Einrichtungsprozeduren schnell in ihre Projekte integrieren und so ihre Arbeitsabläufe bei der Rechnungsverarbeitung revolutionieren und die Datenextraktion aus Rechnungen zu einem nahtlosen und effizienten Prozess machen. Das Codebeispiel zur Datenauswertung mit IronPDF finden Sie imdetailliertes Codebeispiel. Das vollständige Tutorial zur Datenauswertung mit IronPDF for Python ist unter folgendem verfügbarPython-Tutorialund für die Extraktion von Rechnungen mit C#, besuchen SieIronOCR-Tutorial.
Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.
< PREVIOUS Wie man eine PDF-Datei in Python analysiert
NÄCHSTES > Konvertierung von Bildern in PDF in Python