文档中的项目符号在 GATE NLP 中成为问号
Bullets in document getting as a question mark in GATE NLP
我是 GATE NLP
的新手。我有一份文件,其中包含项目符号。当我将它加载到 GATE
时。项目符号被检测为未知类型符号,打印为
。我还尝试将编码设置为 UTF-8
。而且我还尝试以编程方式加载文档,然后项目符号被检测为 ?
。
有人能给我解释一下吗?
示例:
Promoted to Senior Member Technical in 2.5 years of experience.
这是 GATE DEVELOPER UI
中的符号,?
符号是我做的时候显示的 "programmatically"。
根据我的经验,doc
和 docx
文件通常不会产生
个字符。项目符号丢失(文本格式为项目符号列表)或打印为 •
(带有原始项目符号字符的文本)。
另请参阅此相关问题:
Pdf
文件通常会在 GATE 文档中产生“
-项目符号字符”。它可能与某些 pdf 或 Apache PDFBox 问题有关,请参见例如this one.
这些字符也有一个 unicode 值。在 XML 中,它们被编码为例如 
。在这种情况下,我的建议是追踪这些字符(它们可能具有不同的 unicode 值,具体取决于原始项目符号字符)并将它们替换为可打印的内容(例如 •
)。
关于 ?
字符:我可能是因为您的 java 环境不支持这些字符。参见例如:Why Some Unicode Characters appears to be question mark in the console?
我是 GATE NLP
的新手。我有一份文件,其中包含项目符号。当我将它加载到 GATE
时。项目符号被检测为未知类型符号,打印为
。我还尝试将编码设置为 UTF-8
。而且我还尝试以编程方式加载文档,然后项目符号被检测为 ?
。
有人能给我解释一下吗?
示例:
Promoted to Senior Member Technical in 2.5 years of experience.
这是 GATE DEVELOPER UI
中的符号,?
符号是我做的时候显示的 "programmatically"。
根据我的经验,doc
和 docx
文件通常不会产生
个字符。项目符号丢失(文本格式为项目符号列表)或打印为 •
(带有原始项目符号字符的文本)。
另请参阅此相关问题:
Pdf
文件通常会在 GATE 文档中产生“
-项目符号字符”。它可能与某些 pdf 或 Apache PDFBox 问题有关,请参见例如this one.
这些字符也有一个 unicode 值。在 XML 中,它们被编码为例如 
。在这种情况下,我的建议是追踪这些字符(它们可能具有不同的 unicode 值,具体取决于原始项目符号字符)并将它们替换为可打印的内容(例如 •
)。
关于 ?
字符:我可能是因为您的 java 环境不支持这些字符。参见例如:Why Some Unicode Characters appears to be question mark in the console?