watson retrieve-and-rank - 手动排名
watson retrieve-and-rank - manual ranking
我正在尝试构建一个用于演示的排名器。
我做了 "automatic training" 并且得到了不错的结果(可能会更好)
我正在尝试进行手动培训,但我对 Bluemix 在线文档中参数的含义感到困惑:https://www.ibm.com/watson/developercloud/doc/retrieve-rank/training_data.shtml#manual
有人可以解释以下 Bluemix 示例数据吗?
query_id, feature1, feature2, feature3,...,ground_truth
question_id_1, 0.0, 3.4, -900,...,0
question_id_1, 0.5, -70, 0,...,1
question_id_1, 0.0, -100, 20,...,3
...
什么是query__id? (代表什么?)
什么是feature1,feature2? (代表什么?)
什么是 question_id_1? (代表什么?)
以及如何计算这些分数(0.0、3.4、-900)?
我知道 ground_truth 值必须从 0 到 4,(0 表示完全不相关,到 4 表示完美匹配)对吗?
亲切的问候
泽维尔
训练数据用于训练learning-to-rank (L2R) 算法。 L2R 方法是首先获取响应 query
(又名问题)而生成的 candidate answers
(例如搜索结果页面中的文档)列表,并将每个 query-answer pair
表示为一组功能。每个特征都有望捕获特定候选答案与查询匹配程度的某种表示。训练数据中的每一行代表属于这些查询-答案对之一的特征值。
因为训练数据包含来自许多不同查询(和相应搜索结果)的特征向量,所以第一列使用查询 ID 将响应单个查询而生成的不同候选答案联系在一起。
如您所说,最后一列简单说明了人工注释者是否认为答案实际上与问题相关。 0-4 等级不是强制性的。 0 总是代表无关紧要。但是在那之后,您可以使用对您的用例有意义的任何比例(通常人们在数据有限时只使用 0-1 二进制比例,因为这会降低复杂性)。
您引用的文档页面上提供的 python script 实际上将经历生成候选答案和给定包含不同查询的文件的相应特征向量的过程。您可能希望逐步执行该脚本中的代码,以更好地了解如何创建训练数据。
我正在尝试构建一个用于演示的排名器。 我做了 "automatic training" 并且得到了不错的结果(可能会更好) 我正在尝试进行手动培训,但我对 Bluemix 在线文档中参数的含义感到困惑:https://www.ibm.com/watson/developercloud/doc/retrieve-rank/training_data.shtml#manual
有人可以解释以下 Bluemix 示例数据吗?
query_id, feature1, feature2, feature3,...,ground_truth
question_id_1, 0.0, 3.4, -900,...,0
question_id_1, 0.5, -70, 0,...,1
question_id_1, 0.0, -100, 20,...,3
...
什么是query__id? (代表什么?) 什么是feature1,feature2? (代表什么?) 什么是 question_id_1? (代表什么?) 以及如何计算这些分数(0.0、3.4、-900)?
我知道 ground_truth 值必须从 0 到 4,(0 表示完全不相关,到 4 表示完美匹配)对吗?
亲切的问候 泽维尔
训练数据用于训练learning-to-rank (L2R) 算法。 L2R 方法是首先获取响应 query
(又名问题)而生成的 candidate answers
(例如搜索结果页面中的文档)列表,并将每个 query-answer pair
表示为一组功能。每个特征都有望捕获特定候选答案与查询匹配程度的某种表示。训练数据中的每一行代表属于这些查询-答案对之一的特征值。
因为训练数据包含来自许多不同查询(和相应搜索结果)的特征向量,所以第一列使用查询 ID 将响应单个查询而生成的不同候选答案联系在一起。
如您所说,最后一列简单说明了人工注释者是否认为答案实际上与问题相关。 0-4 等级不是强制性的。 0 总是代表无关紧要。但是在那之后,您可以使用对您的用例有意义的任何比例(通常人们在数据有限时只使用 0-1 二进制比例,因为这会降低复杂性)。
您引用的文档页面上提供的 python script 实际上将经历生成候选答案和给定包含不同查询的文件的相应特征向量的过程。您可能希望逐步执行该脚本中的代码,以更好地了解如何创建训练数据。