使用数据框/矩阵为 sklearn 和 Tensorflow 创建输入

Working with dataframe / matrix to create an input for sklearn & Tensorflow

我正在使用 pandas / python /numpy / datalab/bigQuery 为机器学习处理生成输入 table。数据是基因组的——现在,我正在处理一小部分 174行 12430 列

列名是从 bigQuery 中提取的 (df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True)) 同样,提取行名称:samples_rows = bq.Query('SELECT sample_id FROMspeedy-emissary-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3GROUP BY sample_id')

使用提取的命名行和列创建数据框/矩阵的最简单方法是什么。

我探索了 pandas 中的数据帧,但找不到将名称作为参数传递的方法。

对于空数组,我能够找到以下没有名称的 (numpy):

a = np.full([num_of_rows, num_of_columns], np.nan)
a.columns

我非常了解R(如果没有其他办法-我希望我可以将它与datalab一起使用)

有什么想法吗?

非常感谢!

如果您将列名和行名存储在列表中,那么您可以使用 .loc 到 select 您想要的确切行和列。只需确保行名称在索引中即可。您可能需要执行 df.set_index('sample_id') 以将正确的行名称放入索引中。

假设行和列在变量 row_namescol_names 中,执​​行此操作。

df.loc[row_names, col_names]