Excel 根据 URL 参数自动删除 CSV 中求和前的重复项

Excel to auto-remove duplicates before sum in CSV based on URL-paramter

我正在使用 Really Simple Traffic Logger 来存储日期、时间戳、IP 和用户在我网站上访问过的站点。每个访问该网站的用户都通过 URL 中的参数分配一个 UID,形式为:

http://www.domain.com/site.php?=dTM_c1_uid7

dTM = customer,
c1 = category 1,
uid7 = uid for person 7

存储的csv文件包含以下内容:

"DATE","TIME","IP","LOOKING_FOR"
"2016-05-22","07:30:40","XX.XX.XX.XX","/site.php?=dTM_c1_uid7"
"2016-05-22","07:31:10","XX.XX.XX.XX","/site.php?=dTM_c1_uid7"
"2016-05-22","07:31:19","XX.XX.XX.XX","/site.php?=dTM_c1_uid8"

信息存储在一个 CSV 文件中,我试图在其中汇总数据结果,这些结果将由另一个脚本实时可视化。但是,由于很多访问者都是不止一次访问该网站的同一个人,我想在计算总和之前根据URL中的UID参数删除这些,这样每次计数(命中)都可以计算为唯一命中。

因此,在计算总和之前,我正在尝试制定一个自动删除包含“_uid7”参数的重复项的公式。

在 excel 中是否有可以自动构建公式的智能方法?

谢谢。

假设您的数据从A1开始,请post在B1中使用以下公式,并在column B中填写column A[=18]中的数据=]

  =TRIM(SUBSTITUTE(MID(A1,(SEARCH("dTM_c1_",A1,1)+7),99),CHAR(34),REPT(CHAR(32),99)))
      

你会得到uid7,uid8等可以统计或者做其他处理。

编辑 根据您的评论和 "dTM_c1_uidnn.." 字符串出现次数显示在以下快照中。我已经展示了两个快照,其中一个隐藏了辅助列。

这是我目前能做的最好的。可以使用 Excel 本机删除重复项或 VBA 例程过滤 B 列。使用频率函数查找数值的唯一值相对容易但是尽管遵循了一些教程,但经过反复尝试,我无法获得文本字符串的预期结果。我将不胜感激您的正面或负面反馈。我会继续努力寻找最优解。