针对这种情况建议的数据挖掘算法

data mining algorithm that suggest for this situation

这不是直接与编程相关的问题，而是关于选择正确的数据挖掘算法的问题。

我有一些文件夹，假设有 100 个文件夹，这些文件夹的内容是图像和文本文档，我有 excel tables（100 tables）这些文件夹，这意味着对于每个文件夹都有特定的 table ，此 excel table 内容如下：

in header（列 header）包含此文件夹的内容，行包含我要检查的文件（我的测试文件）此 table 中的值是 o如果在该文件夹中找到该文件，则值为 1，否则值为 1，这些测试文件名对于所有文件夹都是相同的，

问：什么是最好的数据挖掘算法可以在 excel 文件 tables 上工作，并且可以根据测试文件内容对这些文件夹进行聚类，例如聚类 1 包括包含文件的文件夹1 和文件 20 和文件 25 .. 等等 ..考虑我使用 matlab 语言吗？

谢谢...

这里的英语有点混乱所以我会尽可能地解释这个问题。你想在这里做的事情似乎不需要任何复杂的算法。继续获取您的 excel 数据并将其导出为 CSV，以便您可以在 Matlab 中工作。

现在您有如下数据：

Folder -> [ Files ]

您可能希望以这种方式建立索引：

File -> [ Folders ]

这样，当你问这个问题时："What folders contain files 1, 20 and 25"，你可以（在恒定时间内）查找 3 个东西：

然后取这些集合的交集。

============================================= ======

您可能感兴趣的另一件事是 "clustering"。为此，继续获取您的文件夹描述符（1 和 0）并将其视为 feature/vector。然后继续运行任何聚类算法。 K 均值聚类在 Matlab 中很容易实现。