针对这种情况建议的数据挖掘算法
data mining algorithm that suggest for this situation
这不是直接与编程相关的问题,而是关于选择正确的数据挖掘算法的问题。
我有一些文件夹,假设有 100 个文件夹,这些文件夹的内容是图像和文本文档,我有 excel tables(100 tables)这些文件夹,这意味着对于每个文件夹都有特定的 table ,此 excel table 内容如下:
in header(列 header)包含此文件夹的内容,行包含我要检查的文件(我的测试文件)此 table 中的值是 o如果在该文件夹中找到该文件,则值为 1,否则值为 1,这些测试文件名对于所有文件夹都是相同的,
问:什么是最好的数据挖掘算法可以在 excel 文件 tables 上工作,并且可以根据测试文件内容对这些文件夹进行聚类,例如聚类 1 包括包含文件的文件夹1 和文件 20 和文件 25 .. 等等 ..考虑我使用 matlab 语言吗?
谢谢...
这里的英语有点混乱所以我会尽可能地解释这个问题。你想在这里做的事情似乎不需要任何复杂的算法。继续获取您的 excel 数据并将其导出为 CSV,以便您可以在 Matlab 中工作。
现在您有如下数据:
Folder -> [ Files ]
您可能希望以这种方式建立索引:
File -> [ Folders ]
这样,当你问这个问题时:"What folders contain files 1, 20 and 25",你可以(在恒定时间内)查找 3 个东西:
- 包含文件 1 的文件夹
- 包含文件 20 的文件夹
- 包含文件 25 的文件夹
然后取这些集合的交集。
============================================= ======
您可能感兴趣的另一件事是 "clustering"。为此,继续获取您的文件夹描述符(1 和 0)并将其视为 feature/vector。然后继续 运行 任何聚类算法。 K 均值聚类在 Matlab 中很容易实现。
这不是直接与编程相关的问题,而是关于选择正确的数据挖掘算法的问题。
我有一些文件夹,假设有 100 个文件夹,这些文件夹的内容是图像和文本文档,我有 excel tables(100 tables)这些文件夹,这意味着对于每个文件夹都有特定的 table ,此 excel table 内容如下:
in header(列 header)包含此文件夹的内容,行包含我要检查的文件(我的测试文件)此 table 中的值是 o如果在该文件夹中找到该文件,则值为 1,否则值为 1,这些测试文件名对于所有文件夹都是相同的,
问:什么是最好的数据挖掘算法可以在 excel 文件 tables 上工作,并且可以根据测试文件内容对这些文件夹进行聚类,例如聚类 1 包括包含文件的文件夹1 和文件 20 和文件 25 .. 等等 ..考虑我使用 matlab 语言吗?
谢谢...
这里的英语有点混乱所以我会尽可能地解释这个问题。你想在这里做的事情似乎不需要任何复杂的算法。继续获取您的 excel 数据并将其导出为 CSV,以便您可以在 Matlab 中工作。
现在您有如下数据:
Folder -> [ Files ]
您可能希望以这种方式建立索引:
File -> [ Folders ]
这样,当你问这个问题时:"What folders contain files 1, 20 and 25",你可以(在恒定时间内)查找 3 个东西:
- 包含文件 1 的文件夹
- 包含文件 20 的文件夹
- 包含文件 25 的文件夹
然后取这些集合的交集。
============================================= ======
您可能感兴趣的另一件事是 "clustering"。为此,继续获取您的文件夹描述符(1 和 0)并将其视为 feature/vector。然后继续 运行 任何聚类算法。 K 均值聚类在 Matlab 中很容易实现。