PDF转HTML
就像IronPDF可以从HTML内容生成像素完美的PDF文件一样,它也可以用于将PDF文档转换为HTML。 通过使用 PdfDocument
和 HtmlFormatOptions
类,用户将可以访问将 PDF 转换为 HTML 所需的方法,并可以控制最终 HTML 内容的格式。
将 PDF 转换为 HTML 的 5 个步骤
PdfDocument pdf = PdfDocument.FromFile(sample.pdf);
string html = pdf.ToHtmlString();
pdf.SaveAsHtml(myHtml.html);
HtmlFormatOptions htmlformat = new HtmlFormatOptions();
pdf.SaveAsHtml("myHtmlConfigured.html", true, "你好,世界", htmlFormatOptions: htmlformat);
要开始将 PDF 文件转换为 HTML,我们首先必须通过 PdfDocument
类使用 FromFile
加载我们希望转换的 PDF。 此方法将接收我们传递给它的文件名/文件位置,并将其加载到我们的新 PdfDocument
对象中,即 pdf。 现在,我们可以在需要访问此对象进行转换过程时简单地引用它。
接下来,我们将演示将 PDF 文档转换为 HTML 的第一种方法。 此方法将PDF转换为简单的HTML字符串对象,然后可以在控制台上显示,准备根据开发人员的需要进一步操作。 下一行演示了另一种方法,通过这种方法我们将PDF转换为HTML文件,准备进行更复杂的工作或共享,与简单HTML字符串相比。 这两种方法都只需一行代码即可完成转换过程,使其使用简单高效。
现在让我们看一个更高级的示例,其中我们使用 HtmlFormatOptions
类并使用其方法来操作和自定义最终的 HTML 输出。 通过这个类,您可以自定义HTML输出的不同方面,例如背景颜色、标题(H1)颜色、H1文本对齐、页面边距等。 首先,我们需要创建这个类的新实例,我们将其命名为htmlformat。
接下来,我们将背景颜色更改为白色,同时将 H1 文本颜色设置为蓝色。 这是通过访问 IronSoftware.Drawing.Color
类来完成的。 然后,我们将调整 H1 字体大小(以像素为单位指定)以适应我们的需求,将其设置为25。我们想要进行的下一个自定义是指定H1文本对齐方式,并将其设置为居中。 我们将在这里进行的最终自定义是设置 HTML 文档中的 PDF 页面边距。(以像素为单位再一次) to 10.
此过程的最后一步是使用与之前相同的方法将PDF转换为HTML,尽管这次我们传递了更多的参数。 首先是我们想要保存新生成的HTML文档的名称和位置,就像之前一样。 第二步是将布尔值 fullContentWidth 设置为 true,这将会使 HTML 中的 PDF 内容全宽显示。 下一个参数是 HTML 输出的标题,最后将我们先前创建的自定义设置应用于 HTML 输出。