用于查找具有非文本属性的相似客户的相似性匹配技术

Techniques for Similarity matching to find similar customers with non-textual attributes

我是机器学习及其技术的初学者。

我需要有关构建模型的建议。这是问题陈述 -

我有一组拥有特定公司 X 的所有产品（4 种产品）的客户 - 将此集合称为 Cust4。
我还有另一个客户数据集，他们只拥有同一家公司 X 的几种产品（3 种产品）- 将此集合称为 Cust3。
我为这两个数据集收集了大量 'categorical' 和 'numerical' 属性（没有文本数据）。
我想向拥有 3 种产品的客户销售更多产品（我想向他们销售另外 4 种产品），所以想知道有多相似 是 Cust3 客户将他们与 Cust4 客户集进行比较，因此我只向与 Cust4 客户集中的客户高度相似的客户销售。

是否有适合的技术/哪些技术可以告诉我 Cust3 集中的特定测试客户例如与 Cust4 集有 70% 的相似度或 80% 的相似度等等?

目前研究 -
我试图将其定义为一个-class class化问题，并研究了一个-Class class化，尤其是 One-Class SVM（在R）。这确实构建了一个模型并 class 验证了数据，但是目前不支持概率预测（R 包 e1071）。

了解可能适用于此类问题的其他技术会有所帮助。感谢所有帮助。

当然，这是一个 class class 化问题（或看起来很像），因为您正在寻找看起来像 cust4 的客户，并且您不会得到概率，因为您有不是第 4 个产品的先验概率。但你可以得到Cust3和Cust4角色之间的相似度距离。

为此，我向您推荐聚类算法： 1.Fist 你为你的 cust4 做一个聚类（在一个或多个集群上），你将得到一个或多个质心（集群的中心）。

2.For Cust3 中的每个客户，您计算与该客户和每个质心的距离（您应该使用与聚类中相同的变量）。如果距离超过某个阈值。所以这位顾客对 product4 很感兴趣。

还有其他技术，如 k 最近邻，但计算时间非常昂贵。

希望对你有所帮助。

试试高斯混合模型。为每个 class 训练一个单独的 GMM，然后您可以从该模型获得任何输入样本的似然分数。

用于查找具有非文本属性的相似客户的相似性匹配技术

Techniques for Similarity matching to find similar customers with non-textual attributes

machine-learning

similarity

svm