从 HTML 到 pdf 的转换产生异常

Question

我有一个小型 C# 桌面应用程序，它根据从 *.eml 文件中检索到的 HTML 创建一个 pdf 文件。这是一个示例：

<html>
<head>
 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
 <div style="font: normal 13px Arial; color:#000000;">
  <p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt"><font size="3"><font face="Calibri">Some text<o:p></o:p></font></font><br />
  </p>
  <p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt"><o:p><font size="3" face="Calibri">&nbsp;</font></o:p><br />
   <span style="FONT-SIZE: 11pt; FONT-FAMILY: &quot;Calibri&quot;,&quot;sans-serif&quot;; mso-fareast-font-family: Calibri; mso-fareast-theme-font: minor-latin; mso-bidi-font-family: &quot;Times New Roman&quot;; mso-fareast-language: EN-US; mso-ascii-theme-font: minor-latin; mso-hansi-theme-font: minor-latin; mso-bidi-theme-font: minor-bidi; mso-ansi-language: IT; mso-bidi-language: AR-SA">Some other text</span>
  </p>
 </div>
</body>
</html>

在我的机器 (Win10 x64) 上一切正常，但是当我运行在客户端机器 (Win Server 2008 R2 x64) 上使用相同的代码时，我从 "document has no pages" 收到消息iTextsharp 异常。

这只是有时发生，对于特定的 HTML 字符串，例如我刚刚发布的字符串；我无法运行客户端计算机上的调试会话，但是我验证了该程序接收格式正确 HTML（因为它是使用 HTML Agility Pack 解析的）。

这可能是与字体相关的问题吗？我完全不知道，这些似乎存在于客户的机器上。

这是我用来创建 pdf 文档的代码片段（它使用自定义图像标签处理器，但它不应该是问题，因为给定片段中没有任何代码）：

using (var document = new Document())
{
    var writer = PdfWriter.GetInstance(document, new FileStream(destinationPath, FileMode.Create));
    writer.CompressionLevel = PdfStream.BEST_COMPRESSION;
    document.Open();

    var tagProcessors = (DefaultTagProcessorFactory)Tags.GetHtmlTagProcessorFactory();
    tagProcessors.RemoveProcessor(HTML.Tag.IMG);
    tagProcessors.AddProcessor(HTML.Tag.IMG, new CustomImageTagProcessor());
    CssFilesImpl cssFiles = new CssFilesImpl();
    cssFiles.Add(XMLWorkerHelper.GetInstance().GetDefaultCSS());
    var cssResolver = new StyleAttrCSSResolver(cssFiles);
    cssResolver.AddCss(@"code { padding: 2px 4px; }", "utf-8", true);
    var charset = Encoding.UTF8;
    var hpc = new HtmlPipelineContext(new CssAppliersImpl(new XMLWorkerFontProvider()));
    hpc.SetAcceptUnknown(true).AutoBookmark(true).SetTagFactory(tagProcessors);
    var htmlPipeline = new HtmlPipeline(hpc, new PdfWriterPipeline(document, writer));                            
    var pipeline = new CssResolverPipeline(cssResolver, htmlPipeline);
    var worker = new XMLWorker(pipeline, true);
    var xmlParser = new XMLParser(true, worker, charset);
    xmlParser.Parse(new StringReader(fixedMarkup));
}

Answer 1

您应该迁移到 pdfHTML，iText7（iText 的最新版本）插件可以将 HTML 转换为 PDF。许多错误（通常与表格、字体和布局相关）多年来已得到修复，因此默认情况下 pdfHTML 更有可能进行转换。

示例代码：

HtmlConverter.convertToPdf(
    "<b>This text should be written in bold.</b>", 
    new PdfWriter(new File("C://users/mentre83/output.pdf")));

Answer 2

发现问题。正如我所怀疑的，它与字体有关。

在我的机器上，Calibri 字体可以嵌入到 *.pdf 文档中，而在其他机器上它的 "Font embeddability" 属性设置为 "Restricted"。

我想我必须解析 HTML 并将 "font family" 标签内的所有值更改为非限制值。

从 HTML 到 pdf 的转换产生异常

Conversion from HTML to pdf generates an exception

c#

itext

xmlworker