从调查文本中寻找模式和有用信息 [xlsx]

Finding Patterns and Useful Information From Survey Text [xlsx]

我想从大量的调查数据中寻找规律,提取有用的信息。数据在 .xlsx 电子表格中排序,其中 4 列对应于特定问题,每一行都填充了受访者的文本回复。

我如何使用 python 和 openpyxl 从数据中提取模式,例如单词或短语的频率、四个问题答案之间的联系,或者我应该寻找的任何其他内容?

我在 data/text 挖矿方面的经验有限,所以如果有一些文档、有用的教程或我应该查看的其他 Whosebug 问题,请告诉我。我在这里和其他地方进行了大量搜索,但没有找到我要找的东西。

到目前为止,我已经根据调查问题拍摄了词频,但事实证明很难浏览 openpyxl 文档来做这样的事情。在 python 中有没有简单的方法来做到这一点?

示例数组 [600x4]:

    [['this is an example of an answer to question 1 by respondent 1', 'answer to Q2 by R1', 'ans to Q3 by R1', 'ans to Q4 by R1']
    ['ans to Q1 by R2', 'ans to Q2 by R2', 'ans to Q3 by R2', 'ans to Q4 by R2']
    [etc, etc, etc, etc...]]

Excel 文件格式不是特别适合这种任务。将文件中的数据复制到更适合该任务的工具中会做得更好,例如具有全文搜索功能的关系数据库或专门的文本引擎。

openpyxl 是为操作 Excel 文件而设计的库。因此,在这种情况下,它可以帮助您提取数据并将其传递给另一个应用程序。