用于查找具有非文本属性的相似客户的相似性匹配技术

Techniques for Similarity matching to find similar customers with non-textual attributes

我是机器学习及其技术的初学者。

我需要有关构建模型的建议。这是问题陈述 -

我有一组拥有特定公司 X 的所有产品(4 种产品)的客户 - 将此集合称为 Cust4。
我还有另一个客户数据集,他们只拥有同一家公司 X 的几种产品(3 种产品)- 将此集合称为 Cust3。
我为这两个数据集收集了大量 'categorical' 和 'numerical' 属性(没有文本数据)。
我想向拥有 3 种产品的客户销售更多产品(我想向他们销售另外 4 种产品),所以想知道有多相似 是 Cust3 客户将他们与 Cust4 客户集进行比较,因此我只向与 Cust4 客户集中的客户高度相似的客户销售。

是否有适合的技术/哪些技术可以告诉我 Cust3 集中的特定测试客户例如与 Cust4 集有 70% 的相似度或 80% 的相似度等等?

目前研究 -
我试图将其定义为一个-class class化问题,并研究了一个-Class class化,尤其是 One-Class SVM(在R)。 这确实构建了一个模型并 class 验证了数据,但是目前不支持概率预测(R 包 e1071)。

了解可能适用于此类问题的其他技术会有所帮助。感谢所有帮助。

当然,这是一个 class class 化问题(或看起来很像),因为您正在寻找看起来像 cust4 的客户,并且您不会得到概率,因为您有不是第 4 个产品的先验概率。但你可以得到Cust3和Cust4角色之间的相似度距离。

为此,我向您推荐聚类算法: 1.Fist 你为你的 cust4 做一个聚类(在一个或多个集群上),你将得到一个或多个质心(集群的中心)。

2.For Cust3 中的每个客户,您计算与该客户和每个质心的距离(您应该使用与聚类中相同的变量)。如果距离超过某个阈值。所以这位顾客对 product4 很感兴趣。

还有其他技术,如 k 最近邻,但计算时间非常昂贵。

希望对你有所帮助。

试试高斯混合模型。为每个 class 训练一个单独的 GMM,然后您可以从该模型获得任何输入样本的似然分数。