Python/pyspark : 将 h20 数据帧作为数组传递给 sklearn kneighbors

Python/pyspark : pass h20 dataframe to sklearn kneighbors as array

我有一个 h20 框架,我需要将其传递给 sklearn kneighbors (NearestNeighbors),如果我没记错的话,“from sklearn.neighbors import NearestNeighbors”只接受数组,我尝试了一行,它正在工作。但是,如何将 who h20 daframe 传递给该函数?我想我可以使用 for 循环,但想知道是否还有其他有效的方法。仅供参考 - 我正在使用 pyspark 进行实施

from sklearn.neighbors import NearestNeighbors

h20_df_mod_output = model_name(input_Dataset)
neigh = NearestNeighbors(n_neighbors=1)
neigh.fit(centroid_values['centroids'])
distance, indices = neigh.kneighbors([h20_df_mod_output[1,:]]) # How can I pass the entire dataset here?

我认为 Scikit-Learn 的算法不接受 H2O 帧。因此,您可以将 H2O 帧转换为 Pandas DataFrames,方法是:

pandas_frame = h2o_frame.as_data_frame()