Spark ALS 提供相同的输出

Question

当我发现 ALS 中的因子矩阵首先随机初始化时，需要创建一点 Pyspark ALS 推荐系统集合，因此不同的运行会给出略微不同的结果，使用它们的平均值会更准确结果。所以我训练模型 2 次 --> 它给了我不同的模型 ALS 对象，但是当使用 recommendForAllUsers() 方法时，不同的模型给出了相同的推荐输出。这里出了什么问题，为什么需要重新启动脚本以获得不同的输出，即使具有不同的预测 ALS 模型？

P.S 伪随机种子参数不存在。

def __train_model(ratings):
    """Train the ALS model with the current dataset
    """
    logger.info("Training the ALS model...")

    als = ALS(rank=rank, maxIter=iterations, implicitPrefs=True, regParam=regularization_parameter,
              userCol="order_id", itemCol="product_id", ratingCol="count")

    model = als.fit(ratings)

    logger.info("ALS model built!")

    return model


model1 = __train_model(ratings_DF)
print(model1)
sim_table_1 = model1.recommendForAllUsers(100).toPandas()

model2 = __train_model(ratings_DF)
print(model2)
sim_table_2 = model2.recommendForAllUsers(100).toPandas()

print('Equality of objects:', model1 == model2)

输出:

INFO:__main__:Training the ALS model...
INFO:__main__:ALS model built!
ALS_444a9e62eb6938248b4c
INFO:__main__:Training the ALS model...
INFO:__main__:ALS model built!
ALS_465c95728272696c6c67
Equality of objects: False

Answer 1

如果您在实例化 ALS 实例时没有为种子参数提供值，它将每次都默认为相同的值，因为它是字符串的哈希值 ("ALS")。这就是为什么你的建议总是一样的。

种子默认设置代码：

self._setDefault(seed=hash(type(self).__name__))

示例：

from pyspark.ml.recommendation import ALS
als1 = ALS(rank=10, maxIter=5)
als2 = ALS(rank=10, maxIter=5)
als1.getSeed() == als2.getSeed() == hash("ALS")
>>> True

如果你想每次都得到不同的模型，你可以使用类似numpy.random.randint的东西来为种子生成一个随机整数。

Spark ALS 提供相同的输出

Spark ALS gives the same output

recommendation-engine

python-3.x

pyspark