Featuretools 分类处理
Featuretools categorical handling
Featuretools 提供了处理分类变量的集成功能
variable_types={"product_id": ft.variable_types.Categorical} https://docs.featuretools.com/loading_data/using_entitysets.html
然而,为了与 Featuretools 的最佳兼容性,这些应该是 strings
还是 pandas.Category
类型?
编辑
此外,是否需要手动指定所有列,如
https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb 还是会根据拟合 pandas 数据类型自动推断出它们
import featuretools.variable_types as vtypes
variable_types = {'gender': vtypes.Categorical,
'patient_id': vtypes.Categorical,
'age': vtypes.Ordinal,
'scholarship': vtypes.Boolean,
'hypertension': vtypes.Boolean,
'diabetes': vtypes.Boolean,
'alcoholism': vtypes.Boolean,
'handicap': vtypes.Boolean,
'no_show': vtypes.Boolean,
'sms_received': vtypes.Boolean}
将数据加载到 Featuretools 时,您应该使用 Pandas 类别 dtype。与使用字符串相比,这将大大节省内存使用量。
您不需要在加载数据时手动指定每个变量类型。如果未提供,Featuretools 将尝试从 Pandas dtype 推断它。
Featuretools 提供了处理分类变量的集成功能
variable_types={"product_id": ft.variable_types.Categorical} https://docs.featuretools.com/loading_data/using_entitysets.html
然而,为了与 Featuretools 的最佳兼容性,这些应该是 strings
还是 pandas.Category
类型?
编辑
此外,是否需要手动指定所有列,如 https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb 还是会根据拟合 pandas 数据类型自动推断出它们
import featuretools.variable_types as vtypes
variable_types = {'gender': vtypes.Categorical,
'patient_id': vtypes.Categorical,
'age': vtypes.Ordinal,
'scholarship': vtypes.Boolean,
'hypertension': vtypes.Boolean,
'diabetes': vtypes.Boolean,
'alcoholism': vtypes.Boolean,
'handicap': vtypes.Boolean,
'no_show': vtypes.Boolean,
'sms_received': vtypes.Boolean}
将数据加载到 Featuretools 时,您应该使用 Pandas 类别 dtype。与使用字符串相比,这将大大节省内存使用量。
您不需要在加载数据时手动指定每个变量类型。如果未提供,Featuretools 将尝试从 Pandas dtype 推断它。