从邮政地址数据中提取相关属性，以便对这些数据进行 PCA（使用 R）

Extract relevant attributes from postal addresses data in order to do PCA on those Data (using R)

我有一个大文件，其中包含字符串信息：邮政地址。地址示例：“1780 wemmel rue hendrik de mol 59/7”

我需要对该数据进行 PCA 分析，以便在个人图表上识别代表实物交付岗位（建筑物、公司等）的集群。为此，我需要从字符串中提取数字（或非数字）相关信息并将其作为我的属性，然后我可以使用 PCA 对其进行分析。

我开始创建 36 个属性（A-Z 和 0-9）来表示每个字母字符和数字的出现。但是PCA还没有给出好的结果，我需要提取更多可以表征数据的属性。

我需要您关于我可以从数据中提取什么的想法，以便在单个图表上很好地表示集群。我正在使用 R.

谢谢。

我认为该任务不适用于 PCA。我会首先尝试在 2 个地址之间引入某种距离度量。您可以或者将整个地址用作单个特征 - 然后有很多通用的字符串相似性度量，例如 Levenshtein 距离。 utils 包中有一个 method。或者引入更多的特征，比如楼号、邮政编码等，结合使用欧氏距离和文本相似度距离。您的 36 个变量对于这项任务来说似乎太多了。无论如何，您的距离度量应该为 'close' 个地址提供较小的值，而为您域中不相关的地址提供较大的值。

决定距离度量并选择特征后，应用k-means clustering with custom distance function to your data. You can use flexclust package for that. Nice suggestions for determining number of clusters can be found here。

有了它，您可能会找到您的集群。祝你好运。

从邮政地址数据中提取相关属性，以便对这些数据进行 PCA（使用 R）

Extract relevant attributes from postal addresses data in order to do PCA on those Data (using R)

text-extraction

r

data-mining

text-mining

pca