UTILISATION D'IRONPDF

Comment analyser un fichier PDF en VB.NET

Kannaopat Udonpant
Kannapat Udonpant
avril 19, 2023
Mise à jour mars 10, 2024
Partager:

Ce tutoriel présente comment extraire par programme des textes et des images à partir de fichiers PDF avec le support de première classe d'IronPDF.

IronPDF

Caractéristiques

Conversion PDF efficace. Presque tout ce qu'une machine peut faire, IronPDF le peut aussi. Grâce à cette bibliothèque PDF, les développeurs peuvent rapidement créer, lire du contenu textuel, écrire, charger et manipuler des PDF.

IronPDF convertit le HTML en un document PDF à l'aide du moteur Chrome. Ainsi que Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms et WPF. IronPDF prend également en charge les applications Xamarin, Blazor, Unity et HoloLense. IronPDF prend en charge les applications Microsoft .NET et .NET Core (à la fois les packages Web ASP.NET et les packages Windows conventionnels). IronPDF peut être utilisé pour créer des PDF esthétiques.

IronPDF peut créer un PDF en utilisant HTML5, JavaScript, CSS et des images. IronPDF dispose également d'un puissant convertisseur HTML-PDF qui s'intègre au PDF. IronPDF dispose d'un solide mécanisme de conversion PDF utilisant le moteur de rendu Chromium. Il n'est pas non plus connecté à des sources extérieures.

  • Une image PDF peut être créée à partir de diverses sources, notamment HTML, HTML5, ASPX et Razor/MVC View. Les fichiers HTML et les images peuvent être convertis en PDF.
  • Les outils qui peuvent être utilisés pour travailler avec des PDF interactifs incluent le remplissage et la soumission de formulaires interactifs.
  • Fusionner et diviser les PDFs, extraire du texte et des images des fichiers PDF, rechercher du texte dans les fichiers PDF, rasteriser des PDFs en images, modifier la taille de la police et convertir des fichiers PDF.
  • Il permet de vérifier les formulaires de connexion HTML à l'aide d'agents utilisateurs, de proxies, de cookies, d'en-têtes HTTP et de variables de formulaire.
  • IronPDF permet d'accéder à des documents sécurisés en donnant des noms d'utilisateur et des mots de passe.
  • IronPDF est un programme qui lit le texte dans les PDF et complète les lacunes.
  • Permet d'ajouter du texte, des images, des signets, des filigranes, et plus encore.
  • Vous pouvez créer un fichier PDF à partir d'un fichier CSS.

    Pour plus de détails, visitez cette page d'informations sur la licence IronPDF pour une clé limitée gratuite et une version professionnelle.

    Comment analyser un fichier PDF en VB.NET, Figure 1 : IronPDF - Mise en forme des polices

    IronPDF - Mise en forme des polices

Extraire le texte d'un fichier PDF

IronPDF peut également lire et extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. Vous trouverez ci-dessous un modèle de code IronPDF qui peut être utilisé pour examiner les fichiers PDF présents.

Extraire le texte de toutes les pages

L'exemple de code ci-dessous démontre la première méthode pour acquérir tout le contenu du PDF en tant que chaîne de caractères en quelques lignes seulement.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

Le code d'exemple ci-dessus démontre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait le texte brut du PDF et le transforme en chaîne de caractères.

Extraire le texte par numéro de page

L'exemple de code ci-dessous montre comment extraire des données d'un fichier PDF en utilisant le numéro de page.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

Le code ci-dessus montre comment lire un PDF à partir d'un fichier existant et le transformer en un objet de document PDF en utilisant la fonction FromFile. Cet objet permet d'accéder aux textes et aux images sur le PDF. L'objet propose une méthode appelée ExtractTextFromPage qui permet d'envoyer un numéro de page en tant que paramètre pour obtenir une chaîne contenant chaque mot présent sur la page du PDF.

Extraire du texte entre les pages

Le code ci-dessous montre comment extraire les données entre plusieurs pages.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

Le code ci-dessus montre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. Cet objet permet d'examiner le texte et les images en PDF. L'objet possède une méthode appelée ExtractTextFromPages qui peut être utilisée pour obtenir une chaîne incluant tout le contenu textuel d'une page donnée du document en passant une liste de numéros de page en tant que paramètre. Ci-dessous, le côté gauche est le PDF source et le côté droit les données extraites.

Comment analyser un fichier PDF en VB.NET, Figure 2 : Extraire le texte entre les pages en sortie

Extraire le texte entre les pages de sortie

Extraire une image d'un fichier PDF

IronPDF fournit une liste de méthodes d'extraction d'images telles que :

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

Le code ci-dessus montre comment lire un document à partir d'un fichier existant et le transformer en un objet document PDF en utilisant la fonction FromFile. En passant une liste de numéros de pages à la méthode ExtractRawImagesFromPage de l'objet, une liste d'octets peut être obtenue contenant chaque image présente sur une page donnée du document. Utiliser une boucle foreach pour traiter chaque octet et le transformer en flux mémoire. Il est ensuite transformé en bitmap, ce qui facilite la sauvegarde de l'image. L'image ci-dessous montre le résultat du code ci-dessus.

Comment analyser un fichier PDF en VB.NET, Figure 3 : Extraire des images de la sortie PDF

Extraire des images de la sortie PDF

Pour en savoir plus sur le tutoriel de code API d'IronPDF, consultez la documentation IronPDF. Vous pouvez également visiter d'autres tutoriels pour apprendre à analyser un texte PDF en utilisant C#.

Conclusion

La licence de développement de la bibliothèque IronPDF est gratuite. Si IronPDF est utilisé dans un environnement de production, différentes licences peuvent être achetées en fonction des besoins du développeur. Le plan Lite commence à $749 et n'a pas de coûts récurrents. Des alternatives de redistribution SaaS et OEM sont également proposées. Toutes les licences comprennent des mises à jour, un an d'assistance produit et une licence permanente. Ils sont également utiles pour la fabrication, la mise en place et le développement. Il s'agit d'un achat unique. D'autres licences gratuites et limitées dans le temps sont disponibles. Visitez les informations complètes sur la licence d'IronPDF pour lire les détails complets des prix et des licences pour IronPDF. IronPDF fournit également des licences gratuites pour la protection contre la copie.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Comment désécuriser un PDF (Tutoriel pour débutants)
SUIVANT >
Comment convertir un PDF en JPG dans .NET