任何方法都可以通过最少 20 个标记的文本分类 - Google NLP API

Any way to get passed the minimum of 20 tokens for text classification - Google NLP API

是否有通过 google 的 NLP API 文本分类方法的最低标记要求?我正在尝试输入一个简短的简单句子,例如 "I can't wait for the presidential debates" 但这会 return 一个错误提示:

Invalid text content: too few tokens (words) to process.

有什么办法可以解决这个问题吗?我一直在输入随机单词,直到输入的字符串达到 20 个字符,但很多时候这会弄乱标签和置信度。如果有任何解决方法,例如设置选项或添加一些很棒的东西!如果没有解决方法,如果您知道另一个适合我的预训练文本分类模型,请告诉我!

另外,我无法创建我想要的分类和标签。我正在做的事情需要太多,这就是为什么 nlp api 中的这些预定义类别很棒。只需要摆脱 20 个字符的要求。

如官方 Content Classification 文档中所述:

Important: You must supply a text block (document) with at least twenty tokens (words) to the classifyText method.

考虑到这一点,检查可能的替代方案,不幸的是,似乎没有办法解决这个问题。事实上,您至少需要提供 20 个单词。

出于这个原因,四处搜索,我发现了这个 here and this other - 这个是中文的,但它可能对你有帮助 :) - 我相信可能对你有帮助的文本分类预训练模型。

无论如何,请随时在 Google's Issue Tracker 中提出功能请求,让他们检查是否有可能删除此限制。

如果这些信息对您有帮助,请告诉我!