from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert
Kannapat Udonpant
22. Juli 2023
Aktualisiert 21. September 2024
Teilen Sie:
In diesem Artikel wird gezeigt, wie IronPDF, eine leistungsstarke Bibliothek zur PDF-Verarbeitung, verwendet wird, um mühelos Daten aus komplexen Tabellen in beliebigen PDF-Dateien zu extrahieren.
IronPDF
Python bietet Programmierern im Vergleich zu anderen Sprachen deutlich mehr Flexibilität und ermöglicht es Entwicklern, grafische Benutzeroberflächen einfach und effizient zu gestalten. Daher ist die Einbindung der IronPDF-Bibliothek in Python ein unkomplizierter Prozess. Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, kann eine Reihe von vorinstallierten Tools wie PyQt, wxWidgets, Kivy und verschiedene andere Pakete und Bibliotheken verwendet werden.
IronPDF vereinfacht Python-Webdesign und -Entwicklung. Das liegt vor allem an der Fülle der verfügbaren Python-Frameworks für die Webentwicklung, wie Django, Flask und Pyramid. Zu den bemerkenswerten Websites und Online-Diensten, die diese Frameworks verwendet haben, gehören Reddit, Mozilla und Spotify.
Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert
Mit IronPDF ist es möglich, ein Dokument aus einer URL zu erzeugen. Es unterstützt auch Benutzeragenten, die sich über HTML-Anmeldeformulare, Proxys, Cookies, HTTP-Header, spezielle Netzwerk-Anmeldedaten, Formularvariablen und Benutzeragenten anmelden.
Das IronPDF-Programm ermöglicht die Überprüfung undanmerkung von PDF-Dateien.
IronPDF ermöglicht die Extraktion von Bildern aus Dokumenten.
IronPDF bietet den Benutzern die Möglichkeit, Kopf- und Fußzeilen, Text und Fotos hinzuzufügen,lesezeichen, wasserzeichenund mehr zu Dokumenten.
Mit IronPDF können Sie Seiten in einem neuen oder bestehenden Dokument aufteilen und zusammenführen.
Die Umwandlung von Dokumenten in PDF-Objekte ist auch ohne Acrobat-Viewer möglich.
IronPDF ermöglicht die Erstellung eines PDF-Dokuments aus einer CSS-Datei.
Mit IronPDF können Dokumente mit CSS-Dateien erstellt werden, die Medientyp-Definitionen enthalten.
Python-Umgebung konfigurieren
Einrichtung Python
Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die aktuellste Version von Python für Ihr Betriebssystem herunterzuladen und einzurichten, besuchen Sie dieoffizielle Python-Website. Sobald Python installiert ist, trennen Sie die Anforderungen für Ihr Projekt ab, indem Sie eine virtuelle Umgebung erstellen. Mit Hilfe des Moduls venv können Sie virtuelle Umgebungen erstellen und verwalten, um Ihrem Konvertierungsprojekt einen übersichtlichen und organisierten Arbeitsbereich zu bieten.
Neues Projekt in PyCharm
Für dieses Tutorial wird PyCharm, eine IDE für die Python-Entwicklung, empfohlen.
Nachdem Sie die PyCharm IDE gestartet haben, wählen Sie "Neues Projekt" aus dem Menü, wie in der Abbildung unten gezeigt.
PyCharm IDE
Wenn Sie "Neues Projekt" wählen, erscheint ein neues Fenster, in dem Sie den Speicherort des Projekts und die Python-Umgebung festlegen können (siehe Abbildung unten).
Erstellen Sie ein neues Projekt in PyCharm
Nachdem Sie den Ort und die Umgebung für das Projekt ausgewählt haben, klicken Sie auf die Schaltfläche Erstellen, um das Projekt zu starten. Python-Dateien können in dem neu gestarteten Fenster geöffnet werden, damit Sie Ihren Code eingeben können. In diesem Handbuch wird Python 3.9 verwendet.
die Haupt-Python-Datei
IronPDF-Bibliotheksanforderung
IronPDF for Python stützt sich auf .NET 6.0 als Kerntechnologie. Um IronPDF for Python verwenden zu können, muss auf Ihrem Computer daher die .NET 6.0-Laufzeitumgebung installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET installieren, bevor sie dieses Python-Modul verwenden können. Laden Sie die erforderliche Laufzeitumgebung von Microsoft herunter.
IronPDF-Bibliothek einrichten
Das Paket "IronPDF" muss installiert werden, um Dateien mit der Erweiterung ".pdf" zu erstellen, zu bearbeiten und zu öffnen. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:
pip installieren ironpdf
Die folgende Abbildung veranschaulicht den Installationsvorgang des Pakets "IronPDF".
Installieren Sie das IronPDF-Paket
Extrahieren von Tabellendaten aus einer PDF-Datei
Mit der IronPDF for Python-Bibliothek können wir mühelos Daten aus PDF-Dateien extrahieren. IronPDF erleichtert die Analyse von Textdaten und die Extraktion von Tabellen aus PDF-Dateien. Nachfolgend finden Sie einen Beispielcode, der zeigt, wie Daten aus PDF-Tabellen extrahiert werden können, wobei das bereitgestellte Bild als Referenz dient.
Die Beispieldaten aus einer PDF-Datei
from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
print(row)
from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
print(row)
PYTHON
Der mitgelieferte Code demonstriert, wie IronPDF mit nur wenigen Zeilen Python-Code Tabellen aus PDF-Dateien extrahieren kann. Zunächst importieren wir die IronPDF-Bibliothek, um auf ihre Funktionalität zuzugreifen und Zugang zu allen IronPDF-Funktionen zu erhalten. Mit Hilfe der Klasse PdfDocument können bestehende PDF-Dateien verarbeitet und verschiedene Operationen mit ihnen durchgeführt werden.
Bei Verwendung der Funktion FromFile ist das Argument zum Laden der PDF-Eingabedatei verfügbar. Anschließend wird die Funktion "ExtractAllText" verwendet, um alle Tabellendaten aus allen Seiten der PDF-Dateien zu extrahieren. Anschließend werden die extrahierten Tabellendaten mit der Funktion Split in mehrere Zeilen aufgeteilt und auf dem Konsolenbildschirm angezeigt.
Die extrahierten Daten
In der obigen Ausgabe werden die Daten Zeile für Zeile angezeigt, um zu zeigen, wie Tabellendaten extrahiert werden können. Erfahren Sie mehr über IronPDF durch die Durchsicht derproduktdokumentation.
Schlussfolgerung
Die IronPDF-Bibliothek bietet robuste Sicherheitsmaßnahmen, um potenzielle Risiken zu minimieren und die Datensicherheit zu gewährleisten. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen bestimmten Browser beschränkt. Mit IronPDF können Programmierer mit nur wenigen Zeilen Code effizient PDF-Dateien erstellen und lesen. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die IronPDF-Bibliothek verschiedene Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die erworben werden können.
Das Lite-Paket zum Preis von $749 beinhaltet eine unbefristete Lizenz, eine 30-tägige Geld-zurück-Garantie, ein Jahr Software-Wartung und Upgrade-Möglichkeiten. Nach dem Erstkauf fallen keine weiteren Kosten an, und diese Lizenzen können in Produktions-, Staging- und Entwicklungsumgebungen verwendet werden. IronPDF bietet auch kostenlose Lizenzen mit einigen Zeit- und Weiterverbreitungsbeschränkungen an. Benutzer können das Produkt in einer realen Umgebung mit einemkostenloser Test zeitraum, der kein Wasserzeichen enthält. Für detaillierte Informationen zu den Kosten und der Lizenzierung der IronPDF-Testversion klicken Sie bitte auf den folgenden Linklizenzierungsseite.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS Wie man eine PDF-Datei in Python schreibt
NÄCHSTES > Wie man in Python PDF von einer URL herunterlädt