为 Watson Retrieve 和 Rank 正确格式化数据

Proper Formatting of Data for Watson Retrieve & Rank

感谢您的宝贵时间。

我想知道您对格式化要上传到 Watson Retrieve and Rank 的特定数据的最佳实践的看法。

I am building a service for answering questions about municipal laws and ordinances to help educate newly elected officials in resource/network poor rural areas.

这是我面临的难题:

假设我服务的地区有 200 个城镇。每个城镇都有相似但不同的条例和规定。每个向系统提出问题的人都会提出 'relatively' 类似的问题,说明他们想要完成什么。但是,答案会因城市而异。

即各城镇的分区条例将是相似的,但检索错误城镇的条例将完全无用,尽管相当接近。

"What is the setback ordinance for Smallville?" 可能会提出任何城镇挫折条例或仅与 Smallville 有关但不是他们的挫折条例的东西。

我有详细说明所需条例和法规的所有文件。我只是在寻找一些关于如何构建它以确保人们获得准确数据的建议。

我应该为每个城镇的文档集创建一个单独的集群吗?我是应该把所有东西都放在一起然后严格训练以提高准确性还是有其他我没有想到的方法。

再次感谢,

马特

这只是对您找到解决方案的一点帮助。

假设您有许多问题映射到单个回答文档,这表明此处的用例可能非常适合 Natural Language Classifier 或 NLC 与检索和排序 (RnR) 的某种组合。

真心推荐你看看Medium里面的这篇文章:

  • Part I - 使用 IBM Watson 检索和排名进行开发:Solr 配置

  • Part II - 使用 IBM Watson Retrieve and Rank 进行开发:训练和评估

  • Part III - 使用 IBM Watson Retrieve and Rank 进行开发:自定义功能 (对你的问题很重要)。

参考链接:

  • 请参阅官方 documentation 关于在 RnR 中准备训练数据
  • 请参阅有关使用 NLC 的官方文档。