watson 特殊字符、重复帖子和 url 处理

watson special character, repeat posts, and url handling

在使用 watson personality insights API 时，我已经注意到一些奇怪的趋势，包括许多在各个维度上的平均得分（例如，与许多人的亲和度大约为 0.27），这让我觉得这是归因于东西。

经过审查，我注意到一个语言错位问题（即，如果它认为它是英语，如果它是西班牙语，您可能会得到奇怪的结果），这让我提出疑问，但找不到答案：

watson如何处理： 1) 消息中的 url（例如，许多 twitter post 都有 url） 2) repeat posts（许多频道重复post 多次） 3) 特殊字符（许多 post 有大量随机特殊字符）

我的目标是确定我需要做多少预处理才能使 watson 最有效。

你是对的，如果语言是 mis-aligned 那么你会得到不正确的结果。

PiAPI先从content-languageheader判断语言。如果 content-type 是 json，那么它会查看 json 内容中的语言，选择出现次数最多的语言，最后，如果缺少它将默认为默认语言，即英语。

所以简而言之，建议（这将在未来的更新中成为必需）始终发送 content-language header。

其次，关于你的问题内容： - URL：该服务将尝试删除这些。我不保证它会删除所有可能的选项，因为 url 规范有一些非常深奥的选项，但我们会删除常见的格式。 - 重复发帖：如果您发送相同的 post 两次，那么它会被计算两次。我们在发送到服务的文本中没有 de-duplication。 - 特殊的角色;我假设您在这里指的是表情符号。这些都包含在我们的处理中，因为基础模型也接受了包含它们的数据的训练，因此它们是服务使用的众多信号之一。

watson 特殊字符、重复帖子和 url 处理

watson special character, repeat posts, and url handling

ibm-watson

personality-insights

ibm-cloud