新 Google 自然语言 API
New Google Natural Language API
我最近使用语言 API 为工作项目收集情绪预测。我有大约 1,300 个未标记的文档,我们最初使用 NLTK 的工具,它基于一个术语词典,对词典中的每个词进行极性估计。我转向 API,在查看预测后,API 产生的结果比 NLTK 好得多。
我知道工程师们可能不想公开预测引擎的细节,但我很好奇它在高层是如何工作的。如果有人能启发我或指出正确的方向,我将不胜感激。例如,“它使用经过数十亿次观察训练的神经网络”,这将是一个合理的答案。
同样,我将它用于一个工作项目,我希望能够简要说明为什么我从 NLTK 切换到 API(改进的结果应该不言而喻, 但我一定会得到 "well, how does it work?").
语言 API 是最先进的机器学习系统的管道,这些系统根据 public 数据(如 Penn Treebank)和带注释的专有数据的组合进行训练由 Google 的语言学家提供。
与 NLTK 之类的东西相比,性能改进来自更多更好的训练数据以及尖端机器学习算法,包括但不限于神经网络。
讨论一些算法的相关链接: