using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

UTILISATION D'IRONPDF

Comment analyser un fichier PDF en VB.NET

Chaknith Bin

avril 19, 2023

Mise à jour mars 10, 2024

Ce tutoriel présente comment extraire par programme des textes et des images à partir de fichiers PDF avec le support de première classe d'IronPDF.

Comment analyser un fichier PDF en VB.NET

Téléchargez la bibliothèque C# IronPDF pour analyser un fichier PDF
Utilisez la méthode FromFile pour analyser le fichier PDF en VB.NET
Extraire le texte d'un PDF ouvert avec la méthode ExtractAllText
Utilisez la méthode ExtractTextFromPages pour extraire le texte de certaines pages
Extraire des images d'un PDF ouvert avec la méthode ExtractRawImagesFromPage

IronPDF

Caractéristiques

Conversion PDF efficace. Presque tout ce qu'une machine peut faire, IronPDF le peut aussi. Grâce à cette bibliothèque PDF, les développeurs peuvent rapidement créer, lire du contenu textuel, écrire, charger et manipuler des PDF.

IronPDF convertit le HTML en un document PDF à l'aide du moteur Chrome. Ainsi que Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms et WPF. IronPDF prend également en charge les applications Xamarin, Blazor, Unity et HoloLense. IronPDF prend en charge les applications Microsoft .NET et .NET Core (à la fois les packages Web ASP.NET et les packages Windows conventionnels). IronPDF peut être utilisé pour créer des PDF esthétiques.

IronPDF peut créer un PDF en utilisant HTML5, JavaScript, CSS et des images. IronPDF dispose également d'un puissant convertisseur HTML-PDF qui s'intègre au PDF. IronPDF dispose d'un solide mécanisme de conversion PDF utilisant le moteur de rendu Chromium. Il n'est pas non plus connecté à des sources extérieures.

Une image PDF peut être créée à partir de diverses sources, notamment HTML, HTML5, ASPX et Razor/MVC View. Les fichiers HTML et les images peuvent être convertis en PDF.
Les outils qui peuvent être utilisés pour travailler avec des PDF interactifs incluent le remplissage et la soumission de formulaires interactifs.
Fusionner et diviser les PDFs, extraire du texte et des images des fichiers PDF, rechercher du texte dans les fichiers PDF, rasteriser des PDFs en images, modifier la taille de la police et convertir des fichiers PDF.
Il permet de vérifier les formulaires de connexion HTML à l'aide d'agents utilisateurs, de proxies, de cookies, d'en-têtes HTTP et de variables de formulaire.
IronPDF permet d'accéder à des documents sécurisés en donnant des noms d'utilisateur et des mots de passe.
IronPDF est un programme qui lit le texte dans les PDF et complète les lacunes.
Permet d'ajouter du texte, des images, des signets, des filigranes, et plus encore.
Vous pouvez créer un fichier PDF à partir d'un fichier CSS.
Pour plus de détails, visitez cette page d'informations sur la licence IronPDF pour une clé limitée gratuite et une version professionnelle.
IronPDF - Mise en forme des polices

Extraire le texte d'un fichier PDF

IronPDF peut également lire et extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. Vous trouverez ci-dessous un modèle de code IronPDF qui peut être utilisé pour examiner les fichiers PDF présents.

Extraire le texte de toutes les pages

L'exemple de code ci-dessous démontre la première méthode pour acquérir tout le contenu du PDF en tant que chaîne de caractères en quelques lignes seulement.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

VB.NET

Le code d'exemple ci-dessus démontre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait le texte brut du PDF et le transforme en chaîne de caractères.

Extraire le texte par numéro de page

L'exemple de code ci-dessous montre comment extraire des données d'un fichier PDF en utilisant le numéro de page.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

VB.NET

Le code ci-dessus montre comment lire un PDF à partir d'un fichier existant et le transformer en un objet de document PDF en utilisant la fonction FromFile. Cet objet permet d'accéder aux textes et aux images sur le PDF. L'objet propose une méthode appelée ExtractTextFromPage qui permet d'envoyer un numéro de page en tant que paramètre pour obtenir une chaîne contenant chaque mot présent sur la page du PDF.

Extraire du texte entre les pages

Le code ci-dessous montre comment extraire les données entre plusieurs pages.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

VB.NET

Le code ci-dessus montre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. Cet objet permet d'examiner le texte et les images en PDF. L'objet possède une méthode appelée ExtractTextFromPages qui peut être utilisée pour obtenir une chaîne incluant tout le contenu textuel d'une page donnée du document en passant une liste de numéros de page en tant que paramètre. Ci-dessous, le côté gauche est le PDF source et le côté droit les données extraites.

Comment analyser un fichier PDF en VB.NET, Figure 2 : Extraire le texte entre les pages en sortie

Extraire le texte entre les pages de sortie

Extraire une image d'un fichier PDF

IronPDF fournit une liste de méthodes d'extraction d'images telles que :

ExtractBitmapsFromPage
ExtractBitmapsFromPages
ExtractImagesFromPage
ExtractImagesFromPages
ExtractRawImagesFromPage
ExtraireLesImagesBrutesDesPages
Chaque méthode permet d'extraire des images d'une page ou de plusieurs pages du document.

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

VB.NET

Le code ci-dessus montre comment lire un document à partir d'un fichier existant et le transformer en un objet document PDF en utilisant la fonction FromFile. En passant une liste de numéros de pages à la méthode ExtractRawImagesFromPage de l'objet, une liste d'octets peut être obtenue contenant chaque image présente sur une page donnée du document. Utiliser une boucle foreach pour traiter chaque octet et le transformer en flux mémoire. Il est ensuite transformé en bitmap, ce qui facilite la sauvegarde de l'image. L'image ci-dessous montre le résultat du code ci-dessus.

Comment analyser un fichier PDF en VB.NET, Figure 3 : Extraire des images de la sortie PDF

Extraire des images de la sortie PDF

Pour en savoir plus sur le tutoriel de code API d'IronPDF, consultez la documentation IronPDF. Vous pouvez également visiter d'autres tutoriels pour apprendre à analyser un texte PDF en utilisant C#.

Conclusion

La licence de développement de la bibliothèque IronPDF est gratuite. Si IronPDF est utilisé dans un environnement de production, différentes licences peuvent être achetées en fonction des besoins du développeur. Le plan Lite commence à $749 et n'a pas de coûts récurrents. Des alternatives de redistribution SaaS et OEM sont également proposées. Toutes les licences comprennent des mises à jour, un an d'assistance produit et une licence permanente. Ils sont également utiles pour la fabrication, la mise en place et le développement. Il s'agit d'un achat unique. D'autres licences gratuites et limitées dans le temps sont disponibles. Visitez les informations complètes sur la licence d'IronPDF pour lire les détails complets des prix et des licences pour IronPDF. IronPDF fournit également des licences gratuites pour la protection contre la copie.

Chaknith Bin

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Chaknith travaille sur IronXL et IronBarcode. Il possède une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, une documentation améliorée et une expérience globale enrichie.

< PRÉCÉDENT
Comment désécuriser un PDF (Tutoriel pour débutants)

SUIVANT >
Comment convertir un PDF en JPG dans .NET