我怎样才能聚集字符串桶?

How can I cluster buckets of strings?

我有几个桶。每个桶包含许多标签(字符串)。我如何根据相似性或重叠将桶聚集在一起?

例如

存储桶 A:'ostrich'、'sparrow'、'hummingbird'、'zebra'、'blue jay'

存储桶 B:'banana'、'watermelon'、'grape'、'carrot'

存储桶 C:'celery'、'lettuce'、'spinach'、'banana'、'carrot'

存储桶 D:'sparrow'、'dog'、'cat'、'lion'、'elephant'、'horse'

在这个非常非常小的示例中,B+C 将组成一个集群(因为香蕉和胡萝卜),而 A 和 D 将各自位于自己的集群中,因为没有足够的集群来对它们进行集群。

您可以使用基于集合的距离,例如具有层次聚类的 Jaccard。