PDF vers HTML

Tout comme IronPDF peut gérer la génération de fichiers PDF parfaits à partir de contenu HTML, il peut également être utilisé pour convertir des documents PDF en HTML. Grâce à l'utilisation des classes PdfDocument et HtmlFormatOptions, les utilisateurs auront accès aux méthodes nécessaires pour convertir le PDF en HTML et contrôler la manière dont le contenu HTML final sera formaté.

5 étapes pour convertir un PDF en HTML

  • PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
  • chaîne html = pdf.ToHtmlString();

    pdf.SaveAsHtml(myHtml.html);

  • HtmlFormatOptions htmlformat = new HtmlFormatOptions();

    pdf.SaveAsHtml("myHtmlConfigured.html", true, "Bonjour le monde", htmlFormatOptions: htmlformat);

    Pour commencer à convertir un fichier PDF en HTML, nous devons d'abord charger le PDF que nous souhaitons convertir en utilisant FromFile via la classe PdfDocument. Cette méthode prendra le nom de fichier/emplacement de fichier que nous lui passons, et le chargera dans notre nouvel objet PdfDocument, pdf. Maintenant, nous pourrons simplement référencer cet objet chaque fois que nous voudrons y accéder pour le processus de conversion.

    Ensuite, nous allons démontrer la première méthode pour convertir un document PDF en HTML. Cette méthode prend le PDF et le convertit en un simple objet de chaîne HTML, qui peut ensuite être affiché sur la console, prêt à être manipulé davantage en fonction des besoins du développeur. La ligne suivante démontre l'autre méthode, par laquelle nous convertissons le PDF en un fichier HTML, prêt pour un travail plus complexe ou le partage, par rapport à une simple chaîne HTML. Ces deux méthodes ne nécessitent qu'une seule ligne pour effectuer le processus de conversion lui-même, ce qui les rend faciles à utiliser efficacement.

    Voyons maintenant un exemple plus avancé où nous prenons la classe HtmlFormatOptions et utilisons ses méthodes pour manipuler et personnaliser le rendu HTML final. Avec cette classe, vous pouvez personnaliser différents aspects de la sortie HTML, tels que la couleur de fond, les titres(H1)couleur, alignement du texte H1, marges de page, et plus encore. Tout d'abord, nous devons créer une nouvelle instance de cette classe, que nous avons nommée htmlformat.

    Ensuite, nous allons changer la couleur de fond en blanc, tout en définissant la couleur du texte H1 en bleu. Ceci est fait en accédant à la classe IronSoftware.Drawing.Color. Ensuite, nous ajusterons la taille de la police du H1(spécifié en pixels)pour répondre à nos besoins, en le réglant sur 25. La prochaine personnalisation que nous souhaitons effectuer est de spécifier l'alignement du texte H1 et de le centrer. La dernière personnalisation que nous ferons ici est de définir les marges des pages PDF dans le document HTML(à nouveau en pixels) to 10.

    La dernière étape de ce processus consiste à utiliser la même méthode qu'auparavant pour convertir le PDF en HTML, bien que cette fois-ci nous ayons passé plus de paramètres. La première est le nom et l'emplacement où nous souhaitons enregistrer notre nouveau document HTML généré, comme auparavant. La deuxième consiste à définir une valeur booléenne, fullContentWidth, sur true, ce qui définira le contenu PDF dans le HTML à pleine largeur. Le paramètre suivant est le titre pour la sortie HTML, suivi de l'application finale du paramètre de personnalisation que nous avons créé précédemment à la sortie HTML.

    Cliquez ici pour voir le guide pratique, y compris des exemples, du code d'exemple et des fichiers >