Mahout spark-itemssimilarity 的输出及其指标

The output of Mahout spark-itemsimilarity and its indicators

Mahout (0.11.1) spark-itemsimilarity 的输出如下所示:
3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276
据我了解,它的格式是:
(item)tab(item1:score)tab(item2:score), item1, item2, itemx... 就是所谓的指标。

我的问题是如何使用指标?

在某些示例中,例如
https://www.mapr.com/products/mapr-sandbox-hadoop/tutorials/recommender-tutorial and https://www.mapr.com/blog/mahout-spark-whats-new-recommenders%E2%80%94part-2,
我们索引指标,我们通过查询指标字段得到推荐,然后我们得到推荐。对我来说,它看起来像:我们形成了一个人们购买了什么的列表作为指标列表,我们用指标列表查询 Elasticsearch/Solr,我们得到推荐的(相似的)项目。在这种方法中,我们查询指标字段以获得相似的项目。

为什么不像:如果我们知道人们买了什么作为列表,我们查询 ID 字段以获得指标作为结果。换句话说,我们从spark-itemsimilarity得到的输出已经告诉我们哪些item(指标)与一个item相似?

可能是我理解错了指标的意思,请大神解惑一下?

3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276就是格式(item)tab(item1:score)tab(item2:score)

第一项是与所有其他项目进行比较的项目。所以这就是说与 3705021559 相比,3705021558 的对数似然比为 241.35418715327978 等等。

输出与您的输入匹配,因此如果 3705021558 不是项目 ID,您可能已经在输入中指定了项目的位置。 运行 没有参数的 spark-itemsimilarity 获取帮助输出。您可以指定输入 TSV 中您的项目 ID 的位置、用户 ID 的位置以及您的指标名称的位置。

顺便说一句,如果您打算在推荐系统中使用它,请尝试使用 Universal Recommender,它集成了事件捕获和推荐服务器。 http://templates.prediction.io/PredictionIO/template-scala-parallel-universal-recommendation