使用 XSLT 进行单词和短语计数
Word and phrase counting with XSLT
我们想建立一个我们公司生产的产品文档的字典,创建一个固定的术语,所以我们想统计特定单词和短语的频率。
这可以通过几种不同的方式解决,但我们想以某种方式解决的是编写一个 XSLT 算法,它可以识别短语,因为特定的单词经常一起出现(所以我们不必指定预先列出所有短语及其具有不同变位、词缀等的所有版本。
您怎么看,这个任务可以用 XSLT 完成吗,还是我们应该考虑其他解决方案?
如果有人对我们应该如何开始有任何有用的建议,我将非常乐意听到您的想法并就此进行对话!
您正在寻找搭配,在算法方面与 Pointwise mutual information 相关联。
在 XSLT 中,没有用于自然语言处理 (NLP) 的框架,因此您必须发明一个。但是,有针对编程语言的 NLP 框架,例如 Python 的 NLTK。查看 this example for finding collocations using Python。
使用以 Python 或 R 等流行数据挖掘语言编写的外部应用程序可能最简单。(您甚至可以将其插入 DITA OT 处理中。)您还可以查看供应商现有的解决方案。我没有对此进行任何深入搜索,但我已经看到像 Watson、Semaphore 甚至 XDocs 这样的系统,return 来自语言分析的结果。
我们想建立一个我们公司生产的产品文档的字典,创建一个固定的术语,所以我们想统计特定单词和短语的频率。
这可以通过几种不同的方式解决,但我们想以某种方式解决的是编写一个 XSLT 算法,它可以识别短语,因为特定的单词经常一起出现(所以我们不必指定预先列出所有短语及其具有不同变位、词缀等的所有版本。
您怎么看,这个任务可以用 XSLT 完成吗,还是我们应该考虑其他解决方案?
如果有人对我们应该如何开始有任何有用的建议,我将非常乐意听到您的想法并就此进行对话!
您正在寻找搭配,在算法方面与 Pointwise mutual information 相关联。
在 XSLT 中,没有用于自然语言处理 (NLP) 的框架,因此您必须发明一个。但是,有针对编程语言的 NLP 框架,例如 Python 的 NLTK。查看 this example for finding collocations using Python。
使用以 Python 或 R 等流行数据挖掘语言编写的外部应用程序可能最简单。(您甚至可以将其插入 DITA OT 处理中。)您还可以查看供应商现有的解决方案。我没有对此进行任何深入搜索,但我已经看到像 Watson、Semaphore 甚至 XDocs 这样的系统,return 来自语言分析的结果。