如何读取 python/pyspark 中的 .wpd sas 数据集
How to read .wpd sas dataset in python/pyspark
嘿,我正在尝试在 python 中导入 .wpd sas 数据集。
但无法得到解决方案。
谁能帮我解决这个问题。
我已经在 python 中使用以下 class 进行了尝试:
导入 json
将 numpy 导入为 np
class JSON数据:
def init(self, 文件名):
with open(filename) as data_file:self.data = json.load(data_file)
def getDatasetCount(self):
return len(self.data['wpd']['dataSeries'])
def getDatasetByIndex(self, index):
return self.data['wpd']['dataSeries'][index]
def getDatasetByName(self, name):
return [x for x in self.data['wpd']['dataSeries'] if x['name'] == name][0]
def getDatasetNames(self):
return [x['name'] for x in self.data['wpd']['dataSeries']]
def getDatasetValues(self, dataset):
values = []
for val in dataset['data']:values.append(val['value'])
return np.array(values)
但运气不好。
提前致谢......
WPS 允许您保存 sas7bdat 文件。我建议使用 WPS 创建一个新文件,而不是尝试读取 WPS 文件。
然后 pandas
,一个 python 扩展,可以读取 sas sas7bdat 文件作为数据帧
https://pandas.pydata.org/docs/reference/api/pandas.read_sas.html
嘿,我正在尝试在 python 中导入 .wpd sas 数据集。 但无法得到解决方案。 谁能帮我解决这个问题。
我已经在 python 中使用以下 class 进行了尝试: 导入 json 将 numpy 导入为 np class JSON数据: def init(self, 文件名): with open(filename) as data_file:self.data = json.load(data_file)
def getDatasetCount(self):
return len(self.data['wpd']['dataSeries'])
def getDatasetByIndex(self, index):
return self.data['wpd']['dataSeries'][index]
def getDatasetByName(self, name):
return [x for x in self.data['wpd']['dataSeries'] if x['name'] == name][0]
def getDatasetNames(self):
return [x['name'] for x in self.data['wpd']['dataSeries']]
def getDatasetValues(self, dataset):
values = []
for val in dataset['data']:values.append(val['value'])
return np.array(values)
但运气不好。 提前致谢......
WPS 允许您保存 sas7bdat 文件。我建议使用 WPS 创建一个新文件,而不是尝试读取 WPS 文件。
然后 pandas
,一个 python 扩展,可以读取 sas sas7bdat 文件作为数据帧
https://pandas.pydata.org/docs/reference/api/pandas.read_sas.html