在 featuretools 中使用多个 ID

Using multiple Ids in featuretools

我有一个数据集,我想对其进行自动特征工程。然而,它是基于时间序列的,所以为了让它工作,我必须使用 2 个东西作为 id,对象 id 和日期。

x = pd.DataFrame({'id': [1,2,1], 'date': [2012021,2032021,4052021], 'x1': [1,2,3]})
y = pd.DataFrame({'id': [1,2,1], 'date': [2012021,2032021,4052021], 'label': [3,2,1]})
entities = {"features": (x, ['id','date']), "labels": (y, ['id','date'])}
feature_matrix, features_defs = ft.dfs(entities=entities,target_entity="y")

当我 运行 这个时,我得到这个错误:

TypeError: unhashable type: 'list'

我该如何解决这个问题?

你是对的,但是在这里,你应该为实体集创建唯一索引,然后在dfs中使用正确的(id)。我会推荐这种方式:

  1. 创建单个数据帧而不是两个
data = pd.DataFrame({'id': [1,2,1], 'date': [2012021,2032021,4052021], 'x1': [1,2,3], 'label': [3,2,1]})
  1. 为列添加唯一索引
data['index'] = data.index
  1. 创建实体集
es = ft.EntitySet('My EntitySet')
  1. 从数据框创建实体(不使用两种索引)
es.entity_from_dataframe(
    entity_id='main_data',
    dataframe=data,
    index='index',
    time_index='date'
)
  1. 正常化
es.normalize_entity(
    base_entity_id='main_data',
    new_entity_id='observations',
    index='id',
    make_time_index=True
)
  1. 创建功能(如果不想使用默认设置,请不要忘记设置聚合等)
feature_matrix, features_defs = ft.dfs(entityset=es, target_entity="main_data")

可能有另一种甚至更好的方法来处理这个问题,请查看 this github question or this SO answer