Matlab：如何将聚类代码自定义为多级聚类？

Question

我想聚类大量的数据记录。我正在处理的数据是字符串类型。聚类过程耗时较长
让我们假设我想将一组电子邮件数据记录聚类到集群中，其中同一个人写的电子邮件被分配到同一个集群（考虑到一个人可能以不同的方式写 his/her 姓名）。
我想执行多阶段聚类：

第一阶段基于名称的聚类，如果两个记录之间的名称距离小于阈值，我们将考虑这些聚类，否则...
数据记录进入第二阶段基于其他属性（除了名称）的聚类。

计算成对距离。现在我处于聚类阶段。我想将以下代码用于 dbscan 聚类：

function [IDX, isnoise] = dbscan_strings(X,epsilon,MinPts)
C = 0;
n = size(X,1); 
IDX = zeros(n,1);
D = pdist2(X,X,@intersection);
visited = false(n,1);
isnoise = false(n,1);
for i = 1:n
    if ~visited(i)
        visited(i) = true;
        Neighbors = RegionQuery(i);
        if numel(Neighbors)<MinPts
            % X(i,:) is NOISE
            isnoise(i) = true;
        else
            C = C+1;
            ExpandCluster(i,Neighbors,C);
        end
    end
end

function ExpandCluster(i,Neighbors,C)
    IDX(i) = C;
    k = 1;
    while true
        j = Neighbors(k);
        if ~visited(j)
            visited(j) = true;
            Neighbors2 = RegionQuery(j);
            if numel(Neighbors2)>=MinPts
                Neighbors = [Neighbors Neighbors2];   %#ok
            end
        end
        if IDX(j)==0
            IDX(j) = C;
        end
        k = k + 1;
        if k > numel(Neighbors)
            break;
        end
    end
end

function Neighbors = RegionQuery(i)
    Neighbors = find(D(i,:)<=epsilon);
end
end

我需要帮助将以下聚类过程变成多阶段过程，其中 X 包含具有所有属性的数据记录。假设 X{:,1} 是具有名称属性的数据记录，因为名称包含在第一列中。

注意：帮助我的人我将悬赏50点

Answer 1

不要一下子做所有事情！

您正在计算很多您从不需要的东西，这让事情变慢了。比如好的DBSCAN不是用距离函数，而是用索引。

对于名称，仅适用于唯一个名称！你应该有很多完全相同的名字，但你最终一次又一次地计算相同的距离。

所以首先，建立一组唯一的名字仅。对此执行相似性匹配（但是我建议为此使用 OpenRefine 而不是 Matlab！）。确定要合并的名称后，为每个名称组构建一个新的数据矩阵。然后运行任何你想要的聚类。好的候选者可能是 HDBSCAN 和 OPTICSXi（看看 ELKI 中可用的聚类算法，它可能有最广泛的选择）。也许只从一个普通的通用名称开始，以了解算法的参数。不要一次聚类所有子集。

Matlab：如何将聚类代码自定义为多级聚类？

Matlab: How to customize a clustering code to be a multistage clustering?

matlab

cluster-analysis

multistage