我正在尝试使用 python 中的关键字从单个列形成一个集群

Question

我有一个 CSV 文件，其中包含大约 1000 行和 20 列。在这一栏中有一句 am facing login issues, need It support, I'm not able to hear audio/headset issue, I'm not able to login.我正在尝试的是，隔离问题，并找出已报告的 audio/headset 问题以及报告的登录问题问题等等

由于我昨天才开始学习python，所以我需要一些关于如何学习的建议。

Ps - 我能够找到列中存在的唯一值，但不知道如何在这一步之后继续 :(

谢谢亚拉汶 S

Answer 1

如果您不关心内容而只想计算每个关键字的问题数（只需设置您自己的关键字列表），此代码应该有效：

keywords = ['login', 'audio']

for keyword in keywords:
    df['Summary'] = df['Summary'].apply(lambda issue: keyword if keyword in issue else issue)

for elem in df.groupby(['Summary']):
    keyword = elem[0]
    number_of_issues = elem[1].shape[0]
    print('{} issues - {}'.format(keyword, number_of_issues))

我正在尝试使用 python 中的关键字从单个列形成一个集群

I'm trying to form a cluster from a single column using keywords in python

python

group-by

cluster-computing

dataframe

pandas