任何方法都可以通过最少 20 个标记的文本分类 - Google NLP API

Question

是否有通过 google 的 NLP API 文本分类方法的最低标记要求？我正在尝试输入一个简短的简单句子，例如 "I can't wait for the presidential debates" 但这会 return 一个错误提示：

Invalid text content: too few tokens (words) to process.

有什么办法可以解决这个问题吗？我一直在输入随机单词，直到输入的字符串达到 20 个字符，但很多时候这会弄乱标签和置信度。如果有任何解决方法，例如设置选项或添加一些很棒的东西！如果没有解决方法，如果您知道另一个适合我的预训练文本分类模型，请告诉我！

另外，我无法创建我想要的分类和标签。我正在做的事情需要太多，这就是为什么 nlp api 中的这些预定义类别很棒。只需要摆脱 20 个字符的要求。

Answer 1

如官方 Content Classification 文档中所述：

Important: You must supply a text block (document) with at least twenty tokens (words) to the classifyText method.

考虑到这一点，检查可能的替代方案，不幸的是，似乎没有办法解决这个问题。事实上，您至少需要提供 20 个单词。

出于这个原因，四处搜索，我发现了这个 here and this other - 这个是中文的，但它可能对你有帮助 :) - 我相信可能对你有帮助的文本分类预训练模型。

无论如何，请随时在 Google's Issue Tracker 中提出功能请求，让他们检查是否有可能删除此限制。

如果这些信息对您有帮助，请告诉我！

Any way to get passed the minimum of 20 tokens for text classification - Google NLP API