将 TF-IDF 结果导入 Carrot2

Import TF-IDF results into Carrot2

我喜欢 Carrot2 的工作方式。我目前主要使用 XML 导入。我想导入包含 TF-IDF 结果而不是片段的 XML 文件。这将使我能够按照自己的意愿准备数据。

我尝试在片段中传递 TF-IDF 关键字(没有指标),但它以某种方式起作用了。不幸的是,Carrot2 对我的数据再次执行了 TF-IDF,结果很一般。如果我可以将我的关键字与重要性指标一起传递,然后仅使用 Carrot2 来微调结果,那就太好了。

我在 API 中搜索过这样的解决方案,但没有找到。有可能吗?

遗憾的是,Carrot2 不支持直接输入 TF-IDF 数据。您可以尝试的一种技巧是输入由句点 (.) 分隔的每个关键字,根据其重要性指标(rounded/scaled 到最接近的整数)重复每个关键字的次数。用句点分隔关键字将确保 Carrot2 不会尝试将相邻关键字连接成短语。