使用 shogun 工具箱加载数据
Loading data with shogun toolbox
我正在尝试使用 shogun 工具箱来 class确定 this dataset 中的人是否溺水。
我想使用 shogun 引擎,如 CFIle、LibSVMFile、SparseRealFeatures 等...如 shogun introduction 中所述,但我被卡住了。
首先,在本介绍中,您直接加载该格式的 LibSVMFile,但是,作者没有提及他们如何从 CSV 格式(这是他使用的数据集的原始格式)...
由于我没有所需格式的数据集,我尝试使用 CFile class 或更好的 CCSVFile class 加载我的数据集,但我得到了
NameError: name 'CFile' is not defined
和
NameError: name 'CCSVFile' is not defined
(我正在使用 Python3 从 Ubuntu 17.10 中的源代码编译的幕府将军,并且我正在使用 "from shogun import *" 导入所有幕府将军)
然而,当我使用
data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))
如示例所示,未定义的 classes 没有错误,但是
正如预期的那样,它退化于:
[1] 8870 segmentation fault (core dumped) python3 titanic.py
我想知道使用此 shogun 引擎加载数据集的正确方法是什么...
在其他 shogun 笔记本中,他们没有使用它们,只是使用其他库加载数据集,我开始认为这是最好的方法。
要读取 CSV 文件,您应该 运行 以下内容(在 python 中):
import shogun as sg
train_csv = sg.CSV("train.csv")
但请注意,该文件包含大量需要编码的分类,因此在实际尝试将其用于 shogun 模型之前,您首先应该进行一些数据处理。
我正在尝试使用 shogun 工具箱来 class确定 this dataset 中的人是否溺水。
我想使用 shogun 引擎,如 CFIle、LibSVMFile、SparseRealFeatures 等...如 shogun introduction 中所述,但我被卡住了。
首先,在本介绍中,您直接加载该格式的 LibSVMFile,但是,作者没有提及他们如何从 CSV 格式(这是他使用的数据集的原始格式)...
由于我没有所需格式的数据集,我尝试使用 CFile class 或更好的 CCSVFile class 加载我的数据集,但我得到了
NameError: name 'CFile' is not defined
和
NameError: name 'CCSVFile' is not defined
(我正在使用 Python3 从 Ubuntu 17.10 中的源代码编译的幕府将军,并且我正在使用 "from shogun import *" 导入所有幕府将军)
然而,当我使用
data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))
如示例所示,未定义的 classes 没有错误,但是 正如预期的那样,它退化于:
[1] 8870 segmentation fault (core dumped) python3 titanic.py
我想知道使用此 shogun 引擎加载数据集的正确方法是什么...
在其他 shogun 笔记本中,他们没有使用它们,只是使用其他库加载数据集,我开始认为这是最好的方法。
要读取 CSV 文件,您应该 运行 以下内容(在 python 中):
import shogun as sg
train_csv = sg.CSV("train.csv")
但请注意,该文件包含大量需要编码的分类,因此在实际尝试将其用于 shogun 模型之前,您首先应该进行一些数据处理。