PDF a HTML

Así como IronPDF puede manejar la generación de archivos PDF de calidad perfecta a partir de contenido HTML, también se puede usar para convertir documentos PDF en HTML. A través del uso de las clases PdfDocument y HtmlFormatOptions, los usuarios tendrán acceso a los métodos necesarios para convertir el PDF a HTML y control sobre cómo se formateará el contenido HTML final.

5 pasos para convertir PDF a HTML

  • PdfDocument pdf = PdfDocument.FromFile("sample.pdf");
  • cadena html = pdf.ToHtmlString();
  • pdf.SaveAsHtml("myHtml.html");
  • HtmlFormatOptions htmlformat = new HtmlFormatOptions();
  • pdf.SaveAsHtml("myHtmlConfigured.html", true, "Hola Mundo", htmlFormatOptions: htmlformat);

    Para comenzar a convertir un archivo PDF a HTML, primero debemos cargar el PDF que deseamos convertir usando el método FromFile a través de la clase PdfDocument. Este método tomará el nombre de archivo/ubicación de archivo que le pasemos y lo cargará en nuestro nuevo objeto PdfDocument, pdf. Ahora, podremos simplemente referenciar este objeto siempre que queramos acceder a él para el proceso de conversión.

    A continuación, demostraremos el primer método para convertir un documento PDF a HTML. Este método toma el PDF y lo convierte en un objeto de cadena HTML simple, que luego se puede mostrar en la consola, listo para ser manipulado según las necesidades del desarrollador. La siguiente línea demuestra la otra forma, a través de la cual convertimos el PDF a un archivo HTML, listo para un trabajo más complejo o para compartir en comparación con la simple cadena HTML. Ambos métodos solo requieren una única línea para llevar a cabo el proceso de conversión en sí, lo que los hace sencillos de usar de manera eficiente.

    Ahora veamos un ejemplo más avanzado en el que tomamos la clase HtmlFormatOptions y usamos sus métodos para manipular y personalizar el resultado final del HTML. Con esta clase, puedes personalizar diferentes aspectos de la salida HTML, como el color de fondo, encabezado(H1)color, alineación del texto H1, márgenes de página y más. Primero, necesitamos crear una nueva instancia de esta clase, que hemos nombrado htmlformat.

    A continuación, cambiaremos el color de fondo a blanco, mientras configuramos el color del texto H1 a azul. Esto se realiza accediendo a la clase IronSoftware.Drawing.Color. Luego, ajustaremos el tamaño de la fuente H1(especificado en píxeles)para ajustarse a nuestras necesidades, configurándolo en 25. La siguiente personalización que queremos hacer es especificar la alineación del texto H1, y configurarla para que esté centrada. La personalización final que haremos aquí es establecer los márgenes de página del PDF en el documento HTML(nuevamente en píxeles)a 10.

    El paso final en este proceso es usar el mismo método que antes para convertir el PDF a HTML, aunque esta vez le hemos pasado más parámetros. Lo primero es el nombre y la ubicación donde queremos guardar nuestro nuevo documento HTML generado, tal como antes. El segundo es establecer un booleano, fullContentWidth, a verdadero, lo que configurará el contenido PDF en el HTML a ancho completo. El siguiente parámetro es el título para la salida HTML, seguido finalmente de aplicar la configuración de personalización que creamos anteriormente a la salida HTML.

    Haga clic aquí para ver la Guía de Uso, incluyendo ejemplos, código de muestra y archivos >