文档中的项目符号在 GATE NLP 中成为问号

Bullets in document getting as a question mark in GATE NLP

我是 GATE NLP 的新手。我有一份文件,其中包含项目符号。当我将它加载到 GATE 时。项目符号被检测为未知类型符号,打印为 。我还尝试将编码设置为 UTF-8。而且我还尝试以编程方式加载文档,然后项目符号被检测为 ?

有人能给我解释一下吗?

示例:

 Promoted to Senior Member Technical in 2.5 years of experience.

这是 GATE DEVELOPER UI 中的符号,? 符号是我做的时候显示的 "programmatically"。

根据我的经验,docdocx 文件通常不会产生 个字符。项目符号丢失(文本格式为项目符号列表)或打印为 (带有原始项目符号字符的文本)。

另请参阅此相关问题:

Pdf 文件通常会在 GATE 文档中产生“-项目符号字符”。它可能与某些 pdfApache PDFBox 问题有关,请参见例如this one.

这些字符也有一个 unicode 值。在 XML 中,它们被编码为例如 。在这种情况下,我的建议是追踪这些字符(它们可能具有不同的 unicode 值,具体取决于原始项目符号字符)并将它们替换为可打印的内容(例如 )。

关于 ? 字符:我可能是因为您的 java 环境不支持这些字符。参见例如:Why Some Unicode Characters appears to be question mark in the console?