如何为 Watson 检索和排名 Web 界面上传器格式化 .DOC 文档

How to format .DOC documents for Watson retrieve and rank web interface uploader

我想知道为 Retrieve and Rank Web 界面文档上传器格式化 .DOC 文档的最佳方法是什么,以便它处理最好的答案拆分。 (我正在使用 https://watson-retrieve-and-rank.ng.bluemix.net

我们必须创建一组文档,但我找不到任何关于如何重新格式化它们的指南(例如,如果有任何文本大小、粗体、......对于标题,body答案等)将改进自动答案拆分。创建这些文档的团队无法以正确的 JSON 格式准备它们,并且一些 DOC 文件被服务解析为一页答案而没有任何拆分

当然,也许我缺少另一个工具来完成这项任务。

感谢任何经验或链接。

详细文档位于 https://www.ibm.com/watson/developercloud/doc/document-conversion/customizing.shtml#htmlau,因为该工具使用文档转换服务的默认设置。

但是,总而言之,该工具将在使用名称 "Heading N" 的样式的段落处拆分 Word 文档,其中 "N" 是一个数字。

因此这包括 MS Word 中现有的默认内置样式(即 "Heading 1"、"Heading 2"、"Heading 3"、"Heading 4"、"Heading 5"、 "Heading 6"、"Heading 7"、"Heading 8"、"Heading 9")。它还包括您使用这样的名称创建的样式(例如 "Heading 123")