使用数据框/矩阵为 sklearn 和 Tensorflow 创建输入
Working with dataframe / matrix to create an input for sklearn & Tensorflow
我正在使用 pandas / python /numpy / datalab/bigQuery 为机器学习处理生成输入 table。数据是基因组的——现在,我正在处理一小部分
174行
12430 列
列名是从 bigQuery 中提取的 (df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True))
同样,提取行名称:samples_rows = bq.Query('SELECT sample_id FROM
speedy-emissary-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3GROUP BY sample_id')
使用提取的命名行和列创建数据框/矩阵的最简单方法是什么。
我探索了 pandas 中的数据帧,但找不到将名称作为参数传递的方法。
对于空数组,我能够找到以下没有名称的 (numpy):
a = np.full([num_of_rows, num_of_columns], np.nan)
a.columns
我非常了解R(如果没有其他办法-我希望我可以将它与datalab一起使用)
有什么想法吗?
非常感谢!
如果您将列名和行名存储在列表中,那么您可以使用 .loc
到 select 您想要的确切行和列。只需确保行名称在索引中即可。您可能需要执行 df.set_index('sample_id')
以将正确的行名称放入索引中。
假设行和列在变量 row_names
和 col_names
中,执行此操作。
df.loc[row_names, col_names]
我正在使用 pandas / python /numpy / datalab/bigQuery 为机器学习处理生成输入 table。数据是基因组的——现在,我正在处理一小部分 174行 12430 列
列名是从 bigQuery 中提取的 (df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True))
同样,提取行名称:samples_rows = bq.Query('SELECT sample_id FROM
speedy-emissary-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3GROUP BY sample_id')
使用提取的命名行和列创建数据框/矩阵的最简单方法是什么。
我探索了 pandas 中的数据帧,但找不到将名称作为参数传递的方法。
对于空数组,我能够找到以下没有名称的 (numpy):
a = np.full([num_of_rows, num_of_columns], np.nan)
a.columns
我非常了解R(如果没有其他办法-我希望我可以将它与datalab一起使用)
有什么想法吗?
非常感谢!
如果您将列名和行名存储在列表中,那么您可以使用 .loc
到 select 您想要的确切行和列。只需确保行名称在索引中即可。您可能需要执行 df.set_index('sample_id')
以将正确的行名称放入索引中。
假设行和列在变量 row_names
和 col_names
中,执行此操作。
df.loc[row_names, col_names]