从邮政地址数据中提取相关属性,以便对这些数据进行 PCA(使用 R)

Extract relevant attributes from postal addresses data in order to do PCA on those Data (using R)

我有一个大文件,其中包含字符串信息:邮政地址。 地址示例:“1780 wemmel rue hendrik de mol 59/7”

我需要对该数据进行 PCA 分析,以便在个人图表上识别代表实物交付岗位(建筑物、公司等)的集群。为此,我需要从字符串中提取数字(或非数字)相关信息并将其作为我的属性,然后我可以使用 PCA 对其进行分析。

我开始创建 36 个属性(A-Z 和 0-9)来表示每个字母字符和数字的出现。但是PCA还没有给出好的结果,我需要提取更多可以表征数据的属性。

我需要您关于我可以从数据中提取什么的想法,以便在单个图表上很好地表示集群。我正在使用 R.

谢谢。

我认为该任务不适用于 PCA。我会首先尝试在 2 个地址之间引入某种距离度量。您可以 或者 将整个地址用作单个特征 - 然后有很多通用的字符串相似性度量,例如 Levenshtein 距离。 utils 包中有一个 method或者引入更多的特征,比如楼号、邮政编码等,结合使用欧氏距离和文本相似度距离。您的 36 个变量对于这项任务来说似乎太多了。无论如何,您的距离度量应该为 'close' 个地址提供较小的值,而为您域中不相关的地址提供较大的值。

决定距离度量并选择特征后,应用k-means clustering with custom distance function to your data. You can use flexclust package for that. Nice suggestions for determining number of clusters can be found here

有了它,您可能会找到您的集群。祝你好运。