Pandas - 写入包含 unicode 的 excel 文件 - IllegalCharacterError
Pandas - Writing an excel file containing unicode - IllegalCharacterError
我有以下代码:
import pandas as pd
x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)
如果我尝试将此数据帧写为 excel 文件:
df.to_excel("test.xlsx")
或者,如果我尝试将此数据框写入 excel 文件,使用 utf-8 编码:
ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)
我收到以下错误:
IllegalCharacterError Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)
/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
86 else:
87 kwargs[new_arg_name] = new_arg_value
---> 88 return func(*args, **kwargs)
89 return wrapper
90 return _deprecate_kwarg
/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
1258 formatted_cells = formatter.get_formatted_cells()
1259 excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260 startrow=startrow, startcol=startcol)
1261 if need_save:
1262 excel_writer.save()
/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
679 colletter = get_column_letter(startcol + cell.col + 1)
680 xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681 xcell.value = _conv_value(cell.val)
682 style_kwargs = {}
683
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
360 def value(self, value):
361 """Set the value and infer type and display options."""
--> 362 self._bind_value(value)
363
364 @property
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
269 elif self.guess_types:
270 value = self._infer_value(value)
--> 271 self.set_explicit_value(value, self.data_type)
272
273
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
235 raise ValueError('Invalid data type: %s' % data_type)
236 if isinstance(value, STRING_TYPES):
--> 237 value = self.check_string(value)
238 self._value = value
239 self.data_type = data_type
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
220 value = value[:32767]
221 if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222 raise IllegalCharacterError
223 return value
224
IllegalCharacterError:
如何将包含 unicode 的 pandas 数据帧写入 excel 文件?
我不知道这种特定的语言,但通常 excel 和 UTF8 会出错。如果您只是以编程方式打开带有 excel 的 UTF8 字符文件,它会破坏它们(它似乎无法处理字符中的所有位,但会将其截断为有效的前 2 个和后 2 个十六进制数扩展字符中的 8)。
解决方法是将 utf 文件正确加载到 excel 中,让程序在加载宏后将宏插入到 excel sheet 中,从而导入数据。我有一些代码可以在 C# 中执行此操作,是否有帮助?
您的输入是否包含任何扩展字符(即 àâäçæèëéêêïïîñòöôœûüùÿÀÂÄÇÆÈÈÉÊÌÏÈÑÒÖÔŒÛÜÙŸ),如果您将它们去掉,是否有效?
本身不是 Unicode 问题...\x16
(或在 Unicode 字符串中 \u0016
指的是同一字符)是 ASCII 控制代码 22 (SYN)。 Pandas 说在 Excel 文件中包含控制代码(制表符和换行符除外)是无效的,虽然我对 Excel 文件了解不多,但肯定不可能包含它们在 XML 1.0 文件中,这是 xlsx 中的内容。
所以很可能无法在 Excel 中包含任意字符序列(带有控制代码)。您应该在写入之前将它们过滤掉,或者如果您确实需要保留原始数据,请使用仅由您的应用程序识别的某种形式的临时编码。
使用它来消除您可能遇到的任何错误。你可以保存到excelpost这个。
df = df.applymap(lambda x: x.encode('unicode_escape').
decode('utf-8') if isinstance(x, str) else x)
当我遇到这个错误时,我通常通过将文件写入 '.csv
而不是 '.xlsx'
文件来解决它。
所以而不是
yourdataframe.to_excel('Your workbook name.xlsx')
我会做:
yourdataframe.to_csv('Your workbook name.csv')
看起来 pandas
默认解码 .csv
文件的方式是:
encoding : string, optional
A string representing the encoding to use in the output file,
defaults to 'ascii' on Python 2 and 'utf-8' on Python 3.
另一方面,.xlsx
文件的默认编码是:
encoding: string, default None
encoding of the resulting excel file. Only necessary for xlwt,
other writers support unicode natively.
此差异是造成该错误的原因。当您将包含以 -
或 +
开头的字符串的数据写入 .xlsx
文件时,您也会遇到错误。
我也遇到了同样的问题。我是这样解决的:
首先,安装 python 包 xlsxwriter:
pip install xlsxwriter
其次,将默认引擎'openpyxl'替换为'xlsxwriter':
df.to_excel("test.xlsx", engine='xlsxwriter')
我在这个post回答过类似的问题:,下面是相同的内容。
如果您不想安装另一个 excel 编写器引擎(例如 xlsxwriter),您可以尝试通过查找导致 IllegalCharacterError
引发的模式来删除这些非法字符。
打开路径/path/to/your/python/site-packages/openpyxl/cell/
下的cell.py
,寻找check_string
函数,你会看到它使用定义的正则表达式模式ILLEGAL_CHARACTERS_RE
来查找那些非法的人物。试图找到它的定义你会看到这一行:
ILLEGAL_CHARACTERS_RE = re.compile(r'[[=15=]0-0]|[3-4]|[6-7]')
这一行是您需要删除的那些字符。将此行复制到您的程序并在数据帧写入 excel:
之前执行以下代码
dataframe = dataframe.applymap(lambda x: ILLEGAL_CHARACTERS_RE.sub(r'', x) if isinstance(x, str) else x)
以上行将删除这些字符应用于每个单元格。
用于将包含 unicode 字符的数据框写入单个 excel 文件中的多个工作表,下面的代码可能会有所帮助:
%pip install xlsxwriter
from pandas import ExcelWriter
import xlsxwriter
writer = ExcelWriter('notes.xlsx')
for key in dict_df:
data[key].to_excel(writer, key,index=False,engine='xlsxwriter')
writer.save()
我有以下代码:
import pandas as pd
x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)
如果我尝试将此数据帧写为 excel 文件:
df.to_excel("test.xlsx")
或者,如果我尝试将此数据框写入 excel 文件,使用 utf-8 编码:
ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)
我收到以下错误:
IllegalCharacterError Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)
/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
86 else:
87 kwargs[new_arg_name] = new_arg_value
---> 88 return func(*args, **kwargs)
89 return wrapper
90 return _deprecate_kwarg
/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
1258 formatted_cells = formatter.get_formatted_cells()
1259 excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260 startrow=startrow, startcol=startcol)
1261 if need_save:
1262 excel_writer.save()
/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
679 colletter = get_column_letter(startcol + cell.col + 1)
680 xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681 xcell.value = _conv_value(cell.val)
682 style_kwargs = {}
683
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
360 def value(self, value):
361 """Set the value and infer type and display options."""
--> 362 self._bind_value(value)
363
364 @property
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
269 elif self.guess_types:
270 value = self._infer_value(value)
--> 271 self.set_explicit_value(value, self.data_type)
272
273
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
235 raise ValueError('Invalid data type: %s' % data_type)
236 if isinstance(value, STRING_TYPES):
--> 237 value = self.check_string(value)
238 self._value = value
239 self.data_type = data_type
/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
220 value = value[:32767]
221 if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222 raise IllegalCharacterError
223 return value
224
IllegalCharacterError:
如何将包含 unicode 的 pandas 数据帧写入 excel 文件?
我不知道这种特定的语言,但通常 excel 和 UTF8 会出错。如果您只是以编程方式打开带有 excel 的 UTF8 字符文件,它会破坏它们(它似乎无法处理字符中的所有位,但会将其截断为有效的前 2 个和后 2 个十六进制数扩展字符中的 8)。
解决方法是将 utf 文件正确加载到 excel 中,让程序在加载宏后将宏插入到 excel sheet 中,从而导入数据。我有一些代码可以在 C# 中执行此操作,是否有帮助?
您的输入是否包含任何扩展字符(即 àâäçæèëéêêïïîñòöôœûüùÿÀÂÄÇÆÈÈÉÊÌÏÈÑÒÖÔŒÛÜÙŸ),如果您将它们去掉,是否有效?
本身不是 Unicode 问题...\x16
(或在 Unicode 字符串中 \u0016
指的是同一字符)是 ASCII 控制代码 22 (SYN)。 Pandas 说在 Excel 文件中包含控制代码(制表符和换行符除外)是无效的,虽然我对 Excel 文件了解不多,但肯定不可能包含它们在 XML 1.0 文件中,这是 xlsx 中的内容。
所以很可能无法在 Excel 中包含任意字符序列(带有控制代码)。您应该在写入之前将它们过滤掉,或者如果您确实需要保留原始数据,请使用仅由您的应用程序识别的某种形式的临时编码。
使用它来消除您可能遇到的任何错误。你可以保存到excelpost这个。
df = df.applymap(lambda x: x.encode('unicode_escape').
decode('utf-8') if isinstance(x, str) else x)
当我遇到这个错误时,我通常通过将文件写入 '.csv
而不是 '.xlsx'
文件来解决它。
所以而不是
yourdataframe.to_excel('Your workbook name.xlsx')
我会做:
yourdataframe.to_csv('Your workbook name.csv')
看起来 pandas
默认解码 .csv
文件的方式是:
encoding : string, optional
A string representing the encoding to use in the output file,
defaults to 'ascii' on Python 2 and 'utf-8' on Python 3.
另一方面,.xlsx
文件的默认编码是:
encoding: string, default None
encoding of the resulting excel file. Only necessary for xlwt,
other writers support unicode natively.
此差异是造成该错误的原因。当您将包含以 -
或 +
开头的字符串的数据写入 .xlsx
文件时,您也会遇到错误。
我也遇到了同样的问题。我是这样解决的:
首先,安装 python 包 xlsxwriter:
pip install xlsxwriter
其次,将默认引擎'openpyxl'替换为'xlsxwriter':
df.to_excel("test.xlsx", engine='xlsxwriter')
我在这个post回答过类似的问题:
如果您不想安装另一个 excel 编写器引擎(例如 xlsxwriter),您可以尝试通过查找导致 IllegalCharacterError
引发的模式来删除这些非法字符。
打开路径/path/to/your/python/site-packages/openpyxl/cell/
下的cell.py
,寻找check_string
函数,你会看到它使用定义的正则表达式模式ILLEGAL_CHARACTERS_RE
来查找那些非法的人物。试图找到它的定义你会看到这一行:
ILLEGAL_CHARACTERS_RE = re.compile(r'[[=15=]0-0]|[3-4]|[6-7]')
这一行是您需要删除的那些字符。将此行复制到您的程序并在数据帧写入 excel:
之前执行以下代码dataframe = dataframe.applymap(lambda x: ILLEGAL_CHARACTERS_RE.sub(r'', x) if isinstance(x, str) else x)
以上行将删除这些字符应用于每个单元格。
用于将包含 unicode 字符的数据框写入单个 excel 文件中的多个工作表,下面的代码可能会有所帮助:
%pip install xlsxwriter
from pandas import ExcelWriter
import xlsxwriter
writer = ExcelWriter('notes.xlsx')
for key in dict_df:
data[key].to_excel(writer, key,index=False,engine='xlsxwriter')
writer.save()