在 CSV 文件中查找多次出现的对

Finding multiple occurrences of pairs in CSV file

我正在尝试编写一个 Python 脚本来搜索 CSV 文件并确定两个项目彼此相邻出现的次数。

例如,假设 CSV 如下所示:

red,green,blue,red,yellow,green,yellow,red,green,purple,blue,yellow,red,blue,blue,green,purple,red,blue,blue,red,green 

而且我想找出 "red,green" 彼此相邻出现的次数(但我想要一个不仅仅特定于此 CSV 中的单词的解决方案)。

到目前为止,我认为可能将 CSV 转换为列表可能是一个好的开始:

import csv
with open('examplefile.csv', 'rb') as f:
    reader = csv.reader(f)
    your_list = list(reader)

print your_list

哪个returns:

[['red', 'green', 'blue', 'red', 'yellow', 'green', 'yellow', 'red', 'green', 'purple', 'blue', 'yellow', 'red', 'blue', 'blue', 'green', 'purple', 'red', 'blue', 'blue', 'red', 'green ']]

在此列表中,出现了 3 次 'red', 'green' — 什么是 approach/module/loop 结构,我可以使用它来查明列表中是否出现了不止一次的两个项目在列表中彼此相邻?

这将一次性检查 'red','green''green','red' 组合:

pair = ('red', 'green')
positions = [i for i in xrange(len(l)-1) if ((l[i],l[i+1]) == pair or (l[i+1],l[i]) == pair)]
print positions
>>> [0, 7] # notice that your last entry was 'green ' not 'green'

输出打印模式开始的第 i 个索引。

使用您的示例进行测试(在最后更正 'green ':

l = [['red', 'green', 'blue', 'red', 'yellow', 'green', 'yellow', 'red', 'green', 'purple', 'blue', 'yellow', 'red', 'blue', 'blue', 'green', 'purple', 'red', 'blue', 'blue', 'red', 'green ']]
l = l[0]

# add another entry to test reversed matching
l.append('red')

pair = ('red', 'green')
positions = [i for i in xrange(len(l)-1) if ((l[i],l[i+1]) == pair or (l[i+1],l[i]) == pair)]

print positions
>>> [0, 7, 20, 21]

if positions > 1:
    print 'do stuff'

您要找的是双字母组(两个词对)。您通常会看到这些 text-mining/NLP-type 问题。试试这个:

from itertools import islice, izip
from collections import Counter
print Counter(izip(your_list, islice(your_list, 1, None)))

哪个returns:

Counter({('red', 'green'): 3, ('red', 'blue'): 2, ('yellow', 'red'): 2, ('green', 'purple'): 2, ('blue', 'blue'): 2, ('blue', 'red'): 2, ('purple', 'blue'): 1, ('red', 'yellow'): 1, ('green', 'blue'): 1, ('purple', 'red'): 1, ('blue', 'yellow'): 1, ('blue', 'green'): 1, ('yellow', 'green'): 1, ('green', 'yellow'): 1})

如果您只需要获取出现次数超过 1 次的项目,请将 Counter 对象视为 python 字典。

counts = Counter(izip(your_list, islice(your_list, 1, None)))
print [k for k,v in counts.iteritems() if v  > 1]

所以你只有相关的对:

[('red', 'blue'), ('red', 'green'), ('yellow', 'red'), ('green', 'purple'), ('blue', 'blue'), ('blue', 'red')]

看到这个 post 我从那里借了一些代码:Counting bigrams (pair of two words) in a file using python