PRODUKT-VERGLEICHE

itext7 Text aus PDF extrahieren vs IronPDF (Code-Beispiel-Tutorial)

Chipego
Chipego Kalinda
2. Februar 2023
Teilen Sie:

In diesem Tutorial lernen wir, wie man Daten aus einem PDF-Dokument (Portable Document Format) in C# liest, mit Beispielen unter Verwendung zweier verschiedener Tools.

Es gibt viele Parser-Bibliotheken/Leseprogramme im Internet, die Text und Bilder aus PDF-Dateien extrahieren können. Wir werden Informationen aus einer PDF-Datei extrahieren, indem wir die beiden nützlichsten und besten Bibliotheken mit relevanten Diensten verwenden, die es gibt. Wir werden auch beide Bibliotheken vergleichen, um herauszufinden, welche der beiden besser ist.

Wir werden [iText 7](https://itextpdf.com/products/itext-7/itext-7-core" target="_blank" rel="nofollow noopener noreferrer) und IronPDF vergleichen. Bevor wir fortfahren, werden wir beide Bibliotheken vorstellen.

iText 7

die iText 7-Bibliothek ist die neueste Version von iTextSharp. Sie wird sowohl in .NET- als auch in Java-Anwendungen verwendet. Es ist mit einer Dokument-Engine (wie Adobe Acrobat Reader), Hoch- und Niedrigstufen-Programmierfähigkeiten, einem Ereignis-Listener und PDF-Bearbeitungsfunktionen ausgestattet. iText 7 kann Seiten von PDF-Dokumenten erstellen, bearbeiten und verbessern, ohne dass Fehler auftreten. Weitere Funktionen sind das Hinzufügen von Passwörtern, das Erstellen von Kodierungsstrategien und das Speichern von Berechtigungsoptionen in einem PDF-Dokument. Es wird auch verwendet, um Inhalte oder Canvas-Bilder hinzuzufügen oder zu ändern, PDF-Elemente [Dictionaries usw.] hinzuzufügen, Wasserzeichen und Lesezeichen zu erstellen, Schriftgrößen zu ändern und sensible Daten zu signieren.

mit iText 7 können wir benutzerdefinierte PDF-Verarbeitungsanwendungen für Web-, Mobil-, Desktop-, Kernel- oder Cloud-Anwendungen in .NET erstellen.

IronPDF

IronPDF ist eine von Iron Software entwickelte Bibliothek, mit der C#- und Java-Softwareentwickler PDF-Inhalte erstellen, bearbeiten und extrahieren können. Es wird üblicherweise verwendet, um PDFs aus HTML, aus Webseiten oder aus Bildern zu erzeugen. Es wird verwendet, um PDFs zu lesen und ihren Text zu extrahieren. Weitere Funktionen sind das Hinzufügen von Kopf- und Fußzeilen, Signaturen, Anhängen, Passwörtern und Sicherheitsfragen. Mit seinen Multithreading- und asynchronen Funktionen bietet es eine umfassende Leistungsoptimierung.

IronPDF bietet plattformübergreifende Unterstützung und ist kompatibel mit .NET 5, .NET 6 und .NET 7, .NET Core, Standard und Framework. Es ist auch mit Windows, macOS, Linux, Docker, Azure und AWS kompatibel.

Lassen Sie uns nun eine Demonstration für beide sehen.

Mit iText 7 Text aus einer PDF-Datei extrahieren

Wir werden die folgende PDF-Datei verwenden, um Text aus der PDF-Datei zu extrahieren.

Extrahieren von Text aus PDF: iText vs. IronPDF - Abbildung 1: PDF-Datei

IronPDF

Schreiben Sie den folgenden Quellcode für die Extraktion von Text mit iText 7.

//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
$vbLabelText   $csharpLabel
Extrahieren von Text aus PDF: iText vs IronPDF - Abbildung 2: Extrahierte Textausgabe

Extrahierte Textausgabe

Nun wollen wir mit IronPDF Text aus einer PDF-Datei extrahieren.

Extrahieren von Text aus PDF-Dokumenten mit IronPDF

Der folgende Quellcode zeigt ein Beispiel für die Extraktion von Text aus PDF-Dateien mit IronPDF.

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
$vbLabelText   $csharpLabel
Extrahieren von Text aus PDF: iText vs IronPDF - Abbildung 3: Extrahierter Text mit IronPDF

Extrahierter Text mit IronPDF

Vergleich

Mit IronPDF benötigt man zwei Zeilen, um Text aus PDFs zu extrahieren. Mit iText 7 hingegen müssen wir für dieselbe Aufgabe etwa 10 Zeilen Code schreiben.

IronPDF bietet von Haus aus bequeme Methoden zur Textextraktion; aber iText 7 verlangt von uns, dass wir unsere eigene Logik schreiben, um die gleiche Aufgabe zu erfüllen.

IronPDF ist sowohl in Bezug auf die Leistung als auch auf die Lesbarkeit des Codes effizient.

Beide Bibliotheken sind in Bezug auf die Genauigkeit gleichwertig, da beide eine 100 % genaue Ausgabe liefern.

Schlussfolgerung

iText 7 ist nur für den [kommerziellen Gebrauch](https://itextpdf.com/how-buy" target="_blank" rel="nofollow noopener noreferrer) verfügbar. IronPDF ist kostenlos für die Entwicklung und bietet auch eine kostenlose Testversion für die kommerzielle Nutzung an.

Für einen tiefergehenden Vergleich von IronPDF und iText 7 lesen Sie bitte diesen Blogbeitrag über IronPDF vs. iText 7.

Chipego
Software-Ingenieur
Chipego hat eine natürliche Fähigkeit zum Zuhören, die ihm hilft, Kundenprobleme zu verstehen und intelligente Lösungen anzubieten. Er trat dem Iron Software-Team 2023 bei, nachdem er einen Bachelor of Science in Informationstechnologie erworben hatte. IronPDF und IronOCR sind die beiden Produkte, auf die sich Chipego konzentriert hat, aber sein Wissen über alle Produkte wächst täglich, da er neue Wege findet, Kunden zu unterstützen. Er genießt die Zusammenarbeit bei Iron Software, da Teammitglieder aus dem gesamten Unternehmen ihre unterschiedlichen Erfahrungen einbringen und so zu effektiven, innovativen Lösungen beitragen. Wenn Chipego nicht an seinem Schreibtisch sitzt, kann man ihn oft bei einem guten Buch oder beim Fußballspielen antreffen.
< PREVIOUS
Produktvergleiche mit IronPDF
NÄCHSTES >
Ein Vergleich zwischen IronPDF und PDFium.NET