watson 特殊字符、重复帖子和 url 处理
watson special character, repeat posts, and url handling
在使用 watson personality insights API 时,我已经注意到一些奇怪的趋势,包括许多在各个维度上的平均得分(例如,与许多人的亲和度大约为 0.27),这让我觉得这是归因于东西。
经过审查,我注意到一个语言错位问题(即,如果它认为它是英语,如果它是西班牙语,您可能会得到奇怪的结果),这让我提出疑问,但找不到答案:
watson如何处理:
1) 消息中的 url(例如,许多 twitter post 都有 url)
2) repeat posts(许多频道重复post 多次)
3) 特殊字符(许多 post 有大量随机特殊字符)
我的目标是确定我需要做多少预处理才能使 watson 最有效。
你是对的,如果语言是 mis-aligned 那么你会得到不正确的结果。
PiAPI先从content-languageheader判断语言。如果 content-type 是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少它将默认为默认语言,即英语。
所以简而言之,建议(这将在未来的更新中成为必需)始终发送 content-language header。
其次,关于你的问题内容:
- URL:该服务将尝试删除这些。我不保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们会删除常见的格式。
- 重复发帖:如果您发送相同的 post 两次,那么它会被计算两次。我们在发送到服务的文本中没有 de-duplication。
- 特殊的角色;我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为基础模型也接受了包含它们的数据的训练,因此它们是服务使用的众多信号之一。
在使用 watson personality insights API 时,我已经注意到一些奇怪的趋势,包括许多在各个维度上的平均得分(例如,与许多人的亲和度大约为 0.27),这让我觉得这是归因于东西。
经过审查,我注意到一个语言错位问题(即,如果它认为它是英语,如果它是西班牙语,您可能会得到奇怪的结果),这让我提出疑问,但找不到答案:
watson如何处理: 1) 消息中的 url(例如,许多 twitter post 都有 url) 2) repeat posts(许多频道重复post 多次) 3) 特殊字符(许多 post 有大量随机特殊字符)
我的目标是确定我需要做多少预处理才能使 watson 最有效。
你是对的,如果语言是 mis-aligned 那么你会得到不正确的结果。
PiAPI先从content-languageheader判断语言。如果 content-type 是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少它将默认为默认语言,即英语。
所以简而言之,建议(这将在未来的更新中成为必需)始终发送 content-language header。
其次,关于你的问题内容: - URL:该服务将尝试删除这些。我不保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们会删除常见的格式。 - 重复发帖:如果您发送相同的 post 两次,那么它会被计算两次。我们在发送到服务的文本中没有 de-duplication。 - 特殊的角色;我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为基础模型也接受了包含它们的数据的训练,因此它们是服务使用的众多信号之一。