计算原始文件中的词频并映射它们
Counting word frequency in original file and mapping them
我正在尝试使用修改版的计数向量化器来适应系列。
然后我得到单元格中值的所有计数的总和。
例如:这是我在其上安装计数矢量化器的系列。
["dog cat mouse", " cat mouse", "mouse mouse cat"]
最终结果应该类似于:
[1+3+4, 3+4, 4+4+3]
我试过使用 Counter
但它在这种情况下并没有真正起作用。
到目前为止,我只成功地获得了一个稀疏矩阵,但打印出了单元格中元素的总数。但是我想将计数映射到整个系列。
计数器列表的项目只能以字符串的形式存储,以后可以使用eval()
对字符串进行评估
代码:
lst = ["dog cat mouse", " cat mouse", "mouse mouse cat"]
res = {}
res2 = []
for i in lst:
for j in i.split(' '):
if j not in res.keys():
res[j] = 1
else:
res[j] += 1
for i in lst:
res2.append('+'.join([str(res[j]) for j in i.split(' ')]))
print(res2)
结果 (res2
) 应该像 ['1+3+4', '3+4', '4+4+3']
我想这就是你想要的...
我正在尝试使用修改版的计数向量化器来适应系列。 然后我得到单元格中值的所有计数的总和。 例如:这是我在其上安装计数矢量化器的系列。
["dog cat mouse", " cat mouse", "mouse mouse cat"]
最终结果应该类似于:
[1+3+4, 3+4, 4+4+3]
我试过使用 Counter
但它在这种情况下并没有真正起作用。
到目前为止,我只成功地获得了一个稀疏矩阵,但打印出了单元格中元素的总数。但是我想将计数映射到整个系列。
计数器列表的项目只能以字符串的形式存储,以后可以使用eval()
代码:
lst = ["dog cat mouse", " cat mouse", "mouse mouse cat"]
res = {}
res2 = []
for i in lst:
for j in i.split(' '):
if j not in res.keys():
res[j] = 1
else:
res[j] += 1
for i in lst:
res2.append('+'.join([str(res[j]) for j in i.split(' ')]))
print(res2)
结果 (res2
) 应该像 ['1+3+4', '3+4', '4+4+3']
我想这就是你想要的...