正在删除 Google 个工作表中的 duplicate/opposite 个条目

Removing duplicate/opposite entries in Google Sheets

我有一个 sheet 包含以下数据: URL A,URL B,百分比相似。

如果URL A 与URL B 的相似度为98%,则表示URL B 与URL A 的相似度为98%,同时列出。

我想找到并删除这些 duplicates/reversed 条目。现在,我已经尝试了两个额外的列,将 URL A+URL B 和 URL B+URL A 合二为一。这样我就有了唯一的标识符。

在此之后我有点卡住了,因为我要处理很多变量,因为数据位于两个不同的行和两个不同的列中。我可能正在查看一个脚本,获取 A+B 值,遍历 B+A 值直到找到匹配项,然后以某种方式标记它(或只是删除它),因为我对突出显示这些重复项的公式的了解是功亏一篑。

这个sheet展示了概念——前100行(总共大约11K):https://docs.google.com/spreadsheets/d/1YKsguAn1lYjV4FlP_6_TlKGvFcpFAEzn7bpAyOEmozQ/edit?usp=sharing

对我应该研究的内容有什么建议吗?

尝试使用 filter(match()) 模式查找重复值,如下所示:

=unique( 
  flatten( 
    filter( 
      A2:B, 
      match(A2:A & B2:B, B2:B & A2:A, 0), 
      C2:C >= 90 
    ) 
  ) 
)

我最终得到了一个解决方案,我按 URL A 排序并实现了这个公式:

=IF(A2<B2,A2&B2,B2&A2)

这样我就以相同的方式连接了真实的和相反的。我不知道您可以在字符串上使用“<”。

在此之后,我可以使用上面的公式删除列中的重复值。