在carrot2 xml 文件中指定为URL 的是什么?

What to be specified as URL in carrot2 xml file?

我有一组文档(多行句子文本)。我想使用 carrot2 将它们聚类。根据文档中指定的 xml 文件格式。必须有一个查询和带有片段和 url 和标题的文档。

我的问题如下:-

  1. XML文件中的查询组件应该写什么??
  2. 文档的 URL 和标题应该给出什么,因为我两者都没有。我只有从数据集中提取的文档(多行文本)。

我认为第一个问题的答案是*:*。那是对的吗?? 请帮忙!!

编辑:-

carrot2-wordbench 在指定 xml 文件并按下进程后抛出 java.lang.NullPointerException

我确信错误是由于 xml 文件作为输入造成的。

有谁知道 xml 可能导致程序抛出异常的问题?

很久没弄明白

您可以将标题和 URL 字段留空。标题内容(如果存在)在聚类期间被赋予更多权重。 URL 字段仅用于显示目的。