图像聚类分析

Clustering Analysis on images

我有大量需要索引的扫描文档,但是感兴趣的文档只占我的 classifier 需要识别的整个包的一小部分。为了了解 class 的最佳数量以及如何最好地在 class 中合并文档,我想 运行 进行无监督聚类分析。

哪种距离方法更适合捕获结构信息。凝聚层次聚类也会是给定任务的最佳聚类方法吗?谢谢

无监督聚类技术在扫描文档上失败,因为它无法掌握底层结构并最终给出无意义的聚类。因此,该方法存在根本性缺陷。然而,如果文档具有不同的结构,使用深度卷积神经网络进行分类,具有足够的数据和精心选择的不同 类,可以胜过 OCR 技术。