聚类前如何考虑文本之间的距离差异将文本数据转换为数值数据

How to transform text data into numerical data considering difference of distance between text before clustering

例如,假设我有这些值:“BMW”、“MERCEDES”和“FIAT”。 正常的转换是给它们数字 1、2 和 3:

如果我想测量这些值之间的距离,则“BMW”和“MERCEDES”之间的距离为 1,“BMW”和“FIAT”之间的距离为 1,但不需要此结果,因为(例如) "MERCEDES" 和 "BMW" 之间的距离应该比 "BMW" 和 "FIAT" 之间的距离小得多,因为它们属于同一定价类别,而 fiat 更便宜。

如果样本范围很小,则对它们进行分类并赋予它们权重会很容易,但是当您拥有数千个汽车品牌(例如)并且知道每个品牌没有特定属性或相关领域时该怎么办为称重自动化提供有关价格(或 class 或任何相关内容)的提示。

您可以使用例如MDS 将数据投影到低维向量 space 近似值,产生所需的点距离。

真正的问题是如何首先得到一个有意义的距离矩阵。