DBF - 编码 cp1250
DBF - encoding cp1250
我在 cp1250 中编码了 dbf 数据库,我正在使用以下代码读取此数据库:
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"
问题是,最终的 csv 文件是错误的。该文件的编码是 ANSI,一些字符已损坏。想请教各位,能否帮我正确读取dbf文件
编辑 1
我尝试了与 https://pypi.python.org/pypi/simpledbf/0.2.4 不同的代码,出现了一些错误。
来源 2:
from simpledbf import Dbf5
import os
import sys
dbf = Dbf5('test.dbf', codec='cp1250');
dbf.to_csv('junk.csv');
输出:
python program2.py
Traceback (most recent call last):
File "program2.py", line 5, in <module>
dbf = Dbf5('test.dbf', codec='cp1250');
File "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py", line 557, in __init__
assert terminator == b'\r'
断言错误
我真的不知道怎么解决这个问题。
尝试使用 my dbf library:
import dbf
with dbf.Table('test.dbf') as table:
dbf.export(table, 'junk.csv')
我写了simpledbf。导致您出现问题的那一行来自我在开发模块时所做的一些测试。首先,您可能想要更新您的安装,因为 0.2.6 是最新的。然后您可以尝试从文件 "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py" 中删除该特定行 (#557)。如果这不起作用,您可以在 GitHub repo for simpledbf 上 ping 我,或者您可以尝试 Ethan 对 dbf 模块的建议。
您可以根据需要进行解码和编码。 dbfpy
假设字符串是 utf8
编码的,所以你可以解码,因为它不是那种编码,然后用正确的编码再次编码。
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
row = [i.decode('utf8').encode('cp1250') if isinstance(i, str) else i for i in rec.fieldData]
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"
我在 cp1250 中编码了 dbf 数据库,我正在使用以下代码读取此数据库:
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"
问题是,最终的 csv 文件是错误的。该文件的编码是 ANSI,一些字符已损坏。想请教各位,能否帮我正确读取dbf文件
编辑 1
我尝试了与 https://pypi.python.org/pypi/simpledbf/0.2.4 不同的代码,出现了一些错误。
来源 2:
from simpledbf import Dbf5
import os
import sys
dbf = Dbf5('test.dbf', codec='cp1250');
dbf.to_csv('junk.csv');
输出:
python program2.py
Traceback (most recent call last):
File "program2.py", line 5, in <module>
dbf = Dbf5('test.dbf', codec='cp1250');
File "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py", line 557, in __init__
assert terminator == b'\r'
断言错误
我真的不知道怎么解决这个问题。
尝试使用 my dbf library:
import dbf
with dbf.Table('test.dbf') as table:
dbf.export(table, 'junk.csv')
我写了simpledbf。导致您出现问题的那一行来自我在开发模块时所做的一些测试。首先,您可能想要更新您的安装,因为 0.2.6 是最新的。然后您可以尝试从文件 "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py" 中删除该特定行 (#557)。如果这不起作用,您可以在 GitHub repo for simpledbf 上 ping 我,或者您可以尝试 Ethan 对 dbf 模块的建议。
您可以根据需要进行解码和编码。 dbfpy
假设字符串是 utf8
编码的,所以你可以解码,因为它不是那种编码,然后用正确的编码再次编码。
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
row = [i.decode('utf8').encode('cp1250') if isinstance(i, str) else i for i in rec.fieldData]
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"