如何读取 python/pyspark 中的 .wpd sas 数据集

Question

嘿，我正在尝试在 python 中导入 .wpd sas 数据集。但无法得到解决方案。谁能帮我解决这个问题。

我已经在 python 中使用以下 class 进行了尝试：导入 json 将 numpy 导入为 np class JSON数据： def init(self, 文件名): with open(filename) as data_file:self.data = json.load(data_file)

def getDatasetCount(self):
    return len(self.data['wpd']['dataSeries'])

def getDatasetByIndex(self, index):
    return self.data['wpd']['dataSeries'][index]

def getDatasetByName(self, name):
    return [x for x in self.data['wpd']['dataSeries'] if x['name'] == name][0]

def getDatasetNames(self):
    return [x['name'] for x in self.data['wpd']['dataSeries']]

def getDatasetValues(self, dataset):
    values = []
    for val in dataset['data']:values.append(val['value'])
    return np.array(values)

但运气不好。提前致谢......

Answer 1

WPS 允许您保存 sas7bdat 文件。我建议使用 WPS 创建一个新文件，而不是尝试读取 WPS 文件。

然后 pandas，一个 python 扩展，可以读取 sas sas7bdat 文件作为数据帧

https://pandas.pydata.org/docs/reference/api/pandas.read_sas.html

如何读取 python/pyspark 中的 .wpd sas 数据集

How to read .wpd sas dataset in python/pyspark

python

pyspark

sas-wps