使用 XSLT 进行单词和短语计数

Word and phrase counting with XSLT

我们想建立一个我们公司生产的产品文档的字典，创建一个固定的术语，所以我们想统计特定单词和短语的频率。

这可以通过几种不同的方式解决，但我们想以某种方式解决的是编写一个 XSLT 算法，它可以识别短语，因为特定的单词经常一起出现（所以我们不必指定预先列出所有短语及其具有不同变位、词缀等的所有版本。

您怎么看，这个任务可以用 XSLT 完成吗，还是我们应该考虑其他解决方案？

如果有人对我们应该如何开始有任何有用的建议，我将非常乐意听到您的想法并就此进行对话！

您正在寻找搭配，在算法方面与 Pointwise mutual information 相关联。

在 XSLT 中，没有用于自然语言处理 (NLP) 的框架，因此您必须发明一个。但是，有针对编程语言的 NLP 框架，例如 Python 的 NLTK。查看 this example for finding collocations using Python。

使用以 Python 或 R 等流行数据挖掘语言编写的外部应用程序可能最简单。（您甚至可以将其插入 DITA OT 处理中。）您还可以查看供应商现有的解决方案。我没有对此进行任何深入搜索，但我已经看到像 Watson、Semaphore 甚至 XDocs 这样的系统，return 来自语言分析的结果。

使用 XSLT 进行单词和短语计数

Word and phrase counting with XSLT

xml

xslt

word

phrases

dita