如何为 Watson 检索和排名 Web 界面上传器格式化 .DOC 文档

How to format .DOC documents for Watson retrieve and rank web interface uploader

我想知道为 Retrieve and Rank Web 界面文档上传器格式化 .DOC 文档的最佳方法是什么，以便它处理最好的答案拆分。（我正在使用 https://watson-retrieve-and-rank.ng.bluemix.net ）

我们必须创建一组文档，但我找不到任何关于如何重新格式化它们的指南（例如，如果有任何文本大小、粗体、......对于标题，body答案等）将改进自动答案拆分。创建这些文档的团队无法以正确的 JSON 格式准备它们，并且一些 DOC 文件被服务解析为一页答案而没有任何拆分

当然，也许我缺少另一个工具来完成这项任务。

感谢任何经验或链接。

详细文档位于 https://www.ibm.com/watson/developercloud/doc/document-conversion/customizing.shtml#htmlau，因为该工具使用文档转换服务的默认设置。

但是，总而言之，该工具将在使用名称 "Heading N" 的样式的段落处拆分 Word 文档，其中 "N" 是一个数字。

因此这包括 MS Word 中现有的默认内置样式（即 "Heading 1"、"Heading 2"、"Heading 3"、"Heading 4"、"Heading 5"、 "Heading 6"、"Heading 7"、"Heading 8"、"Heading 9"）。它还包括您使用这样的名称创建的样式（例如 "Heading 123"）

如何为 Watson 检索和排名 Web 界面上传器格式化 .DOC 文档

How to format .DOC documents for Watson retrieve and rank web interface uploader

ibm-watson

retrieve-and-rank