使用包含波斯记录的数据集

Question

我正在处理包含波斯语记录的数据集，我安装了波斯语和 unicodcsv，但仍然出现此错误。

df = pd.read_csv('datasets\NSIA.Individuals.csv')
df.head()

我得到的错误是：

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 8-9: malformed \N character escape

Answer 1

错误显示的问题不是文件内容而是路径本身，我猜你使用的是 windows 和组合 "\N" 是有问题的，因为它是一个转义字符，您可以在以下 link.

中阅读有关转义字符的更多信息

您可以对路径进行如下操作，即可解决上述问题：

df = pd.read_csv('datasets\NSIA.Individuals.csv')

另一种方法是：

df = pd.read_csv(r'datasets\NSIA.Individuals.csv')

不过后面的内容可能会有问题。

working with dataset containing Persian records