使用 check_correlation 加速 pandas 分析?

Speeding up pandas profiling analysis using check_correlation?

使用pandas 分析生成报告。数据集的大小非常大以加快处理我试图关闭相关性所以我使用了另一个 post 我看到的 check_correlations, ValueError:配置参数 "check_correlation" 不存在。那就是我使用这条线得到的问题

a = prof.ProfileReport(df, title='Downloads', check_correlation=False)

生成本期

ValueError:配置参数 "check_correlation" 不存在。

请看这个 issue 在 pandas-分析项目中。

由于他们更改了版本 2 的配置,您可以将其用作:

import pandas_profiling

profile = df.profile_report(check_correlation_pearson=False,
correlations={'pearson': False,
'spearman': False,
'kendall': False,
'phi_k': False,
'cramers': False,
'recoded': False})

关闭关联。但是,它仍然不如 1.4 版快。您还可以调查其他配置 here.

这种方式对我不起作用,我使用了:

a = prof.ProfileReport(df, title='Downloads', minimal=True)