如何将管道分隔符转换为 CSV 或 JSON
How to convert pipe delimited to CSV or JSON
我有一个 ~4GB 的 txt 文件,它是管道分隔的。我正在尝试将此文本导入 MongoDB,但如您所知,MongoDB 仅支持 JSON 和 CSV 文件。以下是到目前为止的代码。
import pandas as pd
import csv
from pymongo import MongoClient
url = "mongodb://localhost:27017"
client = MongoClient(url)
# Creating Database Office
db = client.Office
# Creating Collection Customers
customers = db.Customers
filename = "Names.txt"
data_df = pd.read_fwf(filename, sep="|", engine="python", encoding="latin-1")
fileout = "Names.csv"
output = data_df.to_csv(fileout, sep=",")
print("Finished")
fin = open("Names.csv", "r")
file_data = fin.read()
file_csv = csv.reader(file_data)
Customers.insert_many(file_csv)
输入文件“Name.txt”如下所示
Reg|Name|DOB|Friend|Nationality|Profession^M
1122|Sam|01/01/2001|John|USA|Lawyer^M
2456|George|05/10/1999|Pit|Canada|Engineer^M
5645|Brad|02/06/2000|Adam|UK|Doctor^M
如果提供的文本文件是 CSV,则只需将其导入 MongoDB,或者如果 txt 文件是竖线分隔或任何其他分隔,则仅在处理文本文件后将其导入 MongoDB到 CSV 文件。我在 fileout 中获取的 CSV 文件,当手动导入到 MongoDB 时,结果如下所示。
col1 col2
id Reg|Name|DOB|Friend|Nationality|Profession
1 1122|Sam|01/01/2001|John|USA|Lawyer
2 2456|George|05/10/1999|Pit|Canada|Engineer
3 5645|Brad|02/06/2000|Adam|UK|Doctor
我想达到的效果如下图。这是通过 sed
命令完成的。首先,我使用命令
将 txt 文件中的任何“,”替换为“-”
sed -i 's/,/-/g' Names.txt
然后我将竖线分隔符替换为“,”:
sed -i 's/|/,/g' Names.txt
col1 col2 col3 col4 col5 col6 col7
id Reg Name DOB Friend Nationality Profession
1 1122 Sam 01/01/2001 John USA Lawyer
2 2456 George 05/10/1999 Pit Canada Engineer
3 5645 Brad 02/06/2000 Adam UK Doctor
我知道代码没有做任何事情。但我不知道如何让它发挥作用。
我是所有类型编程的新手,我已经搜索了关于这个问题的各种答案以及站点中的各种其他相关问题,但 none 符合我的需要。
更新
import csv
import json
from pymongo import MongoClient
url = "mongodb://localhost:27017"
client = MongoClient(url)
db = client.Office
customer = db.Customer
jsonArray = []
with open("Names.txt", "r") as csv_file:
csv_reader = csv.DictReader(csv_file, dialect='excel', delimiter='|', quoting=csv.QUOTE_NONE)
for row in csv_reader:
jsonArray.append(row)
jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
jsonfile = json.loads(jsonString)
customer.insert_many(jsonfile)
这是我从评论中得到一些想法后想出的新代码。但现在唯一的问题是我得到了这个错误。
Traceback (most recent call last):
File "E:\Anaconda Projects\Mongo Projects\Office Tool\csvtojson.py", line 16, in <module>
jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
File "C:\Users\Predator\anaconda3\lib\json\__init__.py", line 234, in dumps
return cls(
File "C:\Users\Predator\anaconda3\lib\json\encoder.py", line 201, in encode
chunks = list(chunks)
MemoryError
Pandas read_fwf() 用于数据位于 fixed 列的数据文件。有时它们也可能有分隔符(通常是竖线字符,以使数据 table 更易于阅读)。
您可以使用 readcsv() 读取竖线分隔的文件。只需使用 sep='|'
:
df = pd.read_csv(filename, sep='|')
现在您可以将数据插入到 mongo 集合中,以这种方式将数据帧转换为字典:
Customers.insert_many( df.to_dict(orient='records') )
终于找到解决办法了。
我在一个 5GB 的文件上测试了它,虽然速度很慢但它仍然可以工作。它将所有数据从管道分隔的 txt 文件导入到 MongoDB.
import csv
import json
from pymongo import MongoClient
url_mongo = "mongodb://localhost:27017"
client = MongoClient(url_mongo)
db = client.Office
customer = db.Customer
jsonArray = []
file_txt = "Text.txt"
rowcount = 0
with open(file_txt, "r") as txt_file:
csv_reader = csv.DictReader(txt_file, dialect="excel", delimiter="|", quoting=csv.QUOTE_NONE)
for row in csv_reader:
rowcount += 1
jsonArray.append(row)
for i in range(rowcount):
jsonString = json.dumps(jsonArray[i], indent=1, separators=(",", ":"))
jsonfile = json.loads(jsonString)
customer.insert_one(jsonfile)
print("Finished")
谢谢大家的想法
我有一个 ~4GB 的 txt 文件,它是管道分隔的。我正在尝试将此文本导入 MongoDB,但如您所知,MongoDB 仅支持 JSON 和 CSV 文件。以下是到目前为止的代码。
import pandas as pd
import csv
from pymongo import MongoClient
url = "mongodb://localhost:27017"
client = MongoClient(url)
# Creating Database Office
db = client.Office
# Creating Collection Customers
customers = db.Customers
filename = "Names.txt"
data_df = pd.read_fwf(filename, sep="|", engine="python", encoding="latin-1")
fileout = "Names.csv"
output = data_df.to_csv(fileout, sep=",")
print("Finished")
fin = open("Names.csv", "r")
file_data = fin.read()
file_csv = csv.reader(file_data)
Customers.insert_many(file_csv)
输入文件“Name.txt”如下所示
Reg|Name|DOB|Friend|Nationality|Profession^M
1122|Sam|01/01/2001|John|USA|Lawyer^M
2456|George|05/10/1999|Pit|Canada|Engineer^M
5645|Brad|02/06/2000|Adam|UK|Doctor^M
如果提供的文本文件是 CSV,则只需将其导入 MongoDB,或者如果 txt 文件是竖线分隔或任何其他分隔,则仅在处理文本文件后将其导入 MongoDB到 CSV 文件。我在 fileout 中获取的 CSV 文件,当手动导入到 MongoDB 时,结果如下所示。
col1 col2
id Reg|Name|DOB|Friend|Nationality|Profession
1 1122|Sam|01/01/2001|John|USA|Lawyer
2 2456|George|05/10/1999|Pit|Canada|Engineer
3 5645|Brad|02/06/2000|Adam|UK|Doctor
我想达到的效果如下图。这是通过 sed
命令完成的。首先,我使用命令
sed -i 's/,/-/g' Names.txt
然后我将竖线分隔符替换为“,”:
sed -i 's/|/,/g' Names.txt
col1 col2 col3 col4 col5 col6 col7
id Reg Name DOB Friend Nationality Profession
1 1122 Sam 01/01/2001 John USA Lawyer
2 2456 George 05/10/1999 Pit Canada Engineer
3 5645 Brad 02/06/2000 Adam UK Doctor
我知道代码没有做任何事情。但我不知道如何让它发挥作用。
我是所有类型编程的新手,我已经搜索了关于这个问题的各种答案以及站点中的各种其他相关问题,但 none 符合我的需要。
更新
import csv
import json
from pymongo import MongoClient
url = "mongodb://localhost:27017"
client = MongoClient(url)
db = client.Office
customer = db.Customer
jsonArray = []
with open("Names.txt", "r") as csv_file:
csv_reader = csv.DictReader(csv_file, dialect='excel', delimiter='|', quoting=csv.QUOTE_NONE)
for row in csv_reader:
jsonArray.append(row)
jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
jsonfile = json.loads(jsonString)
customer.insert_many(jsonfile)
这是我从评论中得到一些想法后想出的新代码。但现在唯一的问题是我得到了这个错误。
Traceback (most recent call last):
File "E:\Anaconda Projects\Mongo Projects\Office Tool\csvtojson.py", line 16, in <module>
jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
File "C:\Users\Predator\anaconda3\lib\json\__init__.py", line 234, in dumps
return cls(
File "C:\Users\Predator\anaconda3\lib\json\encoder.py", line 201, in encode
chunks = list(chunks)
MemoryError
Pandas read_fwf() 用于数据位于 fixed 列的数据文件。有时它们也可能有分隔符(通常是竖线字符,以使数据 table 更易于阅读)。
您可以使用 readcsv() 读取竖线分隔的文件。只需使用 sep='|'
:
df = pd.read_csv(filename, sep='|')
现在您可以将数据插入到 mongo 集合中,以这种方式将数据帧转换为字典:
Customers.insert_many( df.to_dict(orient='records') )
终于找到解决办法了。
我在一个 5GB 的文件上测试了它,虽然速度很慢但它仍然可以工作。它将所有数据从管道分隔的 txt 文件导入到 MongoDB.
import csv
import json
from pymongo import MongoClient
url_mongo = "mongodb://localhost:27017"
client = MongoClient(url_mongo)
db = client.Office
customer = db.Customer
jsonArray = []
file_txt = "Text.txt"
rowcount = 0
with open(file_txt, "r") as txt_file:
csv_reader = csv.DictReader(txt_file, dialect="excel", delimiter="|", quoting=csv.QUOTE_NONE)
for row in csv_reader:
rowcount += 1
jsonArray.append(row)
for i in range(rowcount):
jsonString = json.dumps(jsonArray[i], indent=1, separators=(",", ":"))
jsonfile = json.loads(jsonString)
customer.insert_one(jsonfile)
print("Finished")
谢谢大家的想法