来自 word2vec 的 txt 文件中未知 word/character

Unknown word/character in txt file from word2vec

我最近在word2vec创建的词汇表中遇到了</s> word/character作为一个单独的词。

尽管我确实尝试在网上搜索该字符,但实际上我无法在搜索引擎中指定该字符。

所以,有人知道这个角色是什么吗?

如果您查看 word2vecsource code 的第 82 行,

if (ch == '\n') {
  strcpy(word, (char *)"</s>");
  return;
}

</s> 只是 Mikolov 等人使用的字符。表示行尾(或更准确地说 \n)。 我认为它没有任何特殊的 html/latex 参考。它也不会出现在 ASCII chart.