using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
itext7 Extraire du texte d'un PDF vs IronPDF (Tutoriel d'exemple de code)
Chaknith Bin
février 2, 2023
Partager:
Votre entreprise dépense trop pour des abonnements annuels liés à la sécurité et à la conformité des PDF. Envisagez IronSecureDoc, qui propose des solutions pour gérer des services SaaS tels que la signature numérique, la rédaction, le chiffrement et la protection, le tout pour un paiement unique. Explorez la documentation IronSecureDoc
Dans ce tutoriel, nous apprendrons comment lire des données à partir d'un document PDF (Portable Document Format) en C# avec des exemples utilisant deux outils différents.
Il existe de nombreuses bibliothèques/lecteurs d'analyseurs en ligne qui peuvent extraire du texte et des images des PDF. Nous allons extraire des informations d'un fichier PDF en utilisant les deux bibliothèques les plus utiles et les plus performantes avec des services pertinents à ce jour. Nous comparerons également les deux bibliothèques afin de déterminer laquelle est la meilleure.
la bibliothèque iText 7 est la dernière version de iTextSharp. Elle est utilisée dans les applications .NET et Java. Il est équipé d'un moteur de documents (comme Adobe Acrobat Reader), de capacités de programmation de haut et bas niveau, d'un écouteur d'événements, et de fonctionnalités d'édition de PDF. iText 7 peut créer, éditer et améliorer les pages des documents PDF sans aucune erreur. Les autres fonctionnalités comprennent l'ajout de mots de passe, la création de stratégies d'encodage et l'enregistrement d'options d'autorisation dans un document PDF. Il est également utilisé pour ajouter ou modifier du contenu ou des images sur le canevas, ajouter des éléments PDF [dictionnaires, etc.], créer des filigranes et des signets, changer les tailles de police et signer des données sensibles.
iText 7 nous permet de créer des applications de traitement PDF personnalisées pour le web, le mobile, le bureau, le noyau ou les applications cloud en .NET.
IronPDF
IronPDF est une bibliothèque développée par Iron Software qui aide les ingénieurs logiciels C# et Java à créer, modifier et extraire du contenu PDF. Il est couramment utilisé pour générer des PDF à partir de HTML, de pages web ou d'images. Il permet de lire les PDF et d'en extraire le texte. Parmi les autres fonctionnalités, citons l'ajout d'en-têtes/pieds de page, de signatures, de pièces jointes, de mots de passe et de questions de sécurité. Il offre une optimisation complète des performances grâce à ses fonctionnalités multithreading et asynchrones.
IronPDF bénéficie d'une compatibilité multiplateforme avec .NET 5, .NET 6 et .NET 7, .NET Core, Standard et Framework. Il est également compatible avec Windows, macOS, Linux, Docker, Azure et AWS.
Voyons maintenant une démonstration pour chacun d'entre eux.
Extraire le texte d'un fichier PDF à l'aide d'iText 7
Nous utiliserons le fichier PDF suivant pour extraire le texte du PDF.
IronPDF
Ecrivez le code source suivant pour extraire du texte en utilisant iText 7.
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
Using document As New PdfDocument(New PdfReader(pdfPath))
Dim pageNumbers = document.GetNumberOfPages()
For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
Dim strategy As New LocationTextExtractionStrategy()
Dim parser As New PdfCanvasProcessor(strategy)
parser.ProcessPageContent(document.GetFirstPage())
pageText.Append(strategy.GetResultantText())
Next page
Console.WriteLine(pageText.ToString())
End Using
$vbLabelText $csharpLabel
Texte extrait
Maintenant, extrayons du texte d'un PDF à l'aide d'IronPdf.
Extraire du texte de documents PDF à l'aide d'IronPDF
Le code source suivant illustre l'exemple d'extraction de texte à partir d'un fichier PDF à l'aide d'IronPDF.
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
$vbLabelText $csharpLabel
Texte extrait à l'aide d'IronPDF
Comparaison
Avec IronPDF, il faut deux lignes pour extraire le texte des PDF. Avec iText 7, en revanche, nous devons écrire environ 10 lignes de code pour la même tâche.
IronPDF propose des méthodes d'extraction de texte très pratiques ; mais iText 7 nous oblige à écrire notre propre logique pour effectuer la même tâche.
IronPDF est efficace en termes de performances et de lisibilité du code.
Les deux bibliothèques sont égales en termes de précision, puisqu'elles fournissent toutes deux des résultats précis à 100 %.
Conclusion
iText 7 est disponible uniquement pour un [usage commercial](https://itextpdf.com/how-buy" target="_blank" rel="nofollow noopener noreferrer). IronPDF est gratuit pour le développement et propose également un essai gratuit pour une utilisation commerciale.
Chaknith travaille sur IronXL et IronBarcode. Il possède une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, une documentation améliorée et une expérience globale enrichie.
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier