如何解析 python 中的 csv 文件?

How to parse csv file in python?

我需要将 table 的第一列写入变量,并将其余列(它们的数量可能会有所不同)写入列表,以便从列表中获取所需的值.我正在尝试获取电子邮件地址,但 table 本身就是粥,因此需要检查每一列。

with open('data.csv', 'r', encoding='utf-8-sig', newline='') as file:
    reader = csv.reader(file)
    name = list(next(reader))

    for items in list(reader):
        for item in items:
            if '@' in item:
                if not item in emails:
                    emails.append(item)
                

    with open('result.csv', 'a', encoding='utf-8-sig', newline='') as file:
        writer = csv.writer(file, delimiter=';')
        for email in emails:
            writer.writerow(
                (
                    name,
                    email
                )
            )

输入:

Наименование,Описание,Адрес,Комментарий к адресу,Почтовый индекс,Микрорайон,Район,Город,Округ,Регион,Страна,Часы работы,Часовой пояс,Телефон 1,E-mail 1,Веб-сайт 1,Instagram 1,Twitter 1,Facebook 1,ВКонтакте 1,YouTube 1,Skype 1,Широта,Долгота,2GIS URL
Магазин автозапчастей,,"Мира, 007",,655153,,,Черногорск,Черногорск городской округ,Республика Хакасия,Россия,Пн: 09:00-18:00; Вт: 09:00-18:00; Ср: 09:00-18:00; Чт: 09:00-18:00; Пт: 09:00-18:00; Сб: 09:00-18:00,+07:00,89130502009,grandauto007@mail.ru,http://avtomagazin.2gis.biz,,,,,,,53.805192,91.334047,https://2gis.com/firm/9711414977516651
Спектр-Авто,автотехцентр,"Вяткина, 4",1 этаж,655017,,,Абакан,Абакан городской округ,Республика Хакасия,Россия,Пн: 09:00-18:00; Вт: 09:00-18:00; Ср: 09:00-18:00; Чт: 09:00-18:00; Пт: 09:00-18:00; Сб: 09:00-18:00,+07:00,89233931771,+79233940022@yandex.ru,http://spectr-avto.2gis.biz,,,,,,,53.716581,91.45005,https://2gis.com/firm/70000001034136187

结果是:

['Наименование', 'Описание', 'Адрес', 'Комментарий к адресу', 'Почтовый индекс', 'Микрорайон', 'Район', 'Город', 'Округ', 'Регион', 'Страна', 'Часы работы', 'Часовой пояс', 'Телефон 1', 'E-mail 1', 'Веб-сайт 1', 'Instagram 1', 'Twitter 1', 'Facebook 1', 'ВКонтакте 1', 'YouTube 1', 'Skype 1', 'Широта', 'Долгота', '2GIS URL'];grandauto007@mail.ru
['Наименование', 'Описание', 'Адрес', 'Комментарий к адресу', 'Почтовый индекс', 'Микрорайон', 'Район', 'Город', 'Округ', 'Регион', 'Страна', 'Часы работы', 'Часовой пояс', 'Телефон 1', 'E-mail 1', 'Веб-сайт 1', 'Instagram 1', 'Twitter 1', 'Facebook 1', 'ВКонтакте 1', 'YouTube 1', 'Skype 1', 'Широта', 'Долгота', '2GIS URL'];+79233940022@yandex.ru
['Наименование', 'Описание', 'Адрес', 'Комментарий к адресу', 'Почтовый индекс', 'Микрорайон', 'Район', 'Город', 'Округ', 'Регион', 'Страна', 'Часы работы', 'Часовой пояс', 'Телефон 1', 'E-mail 1', 'Веб-сайт 1', 'Instagram 1', 'Twitter 1', 'Facebook 1', 'ВКонтакте 1', 'YouTube 1', 'Skype 1', 'Широта', 'Долгота', '2GIS URL'];zhvirblis_yuliya@mail.ru

如果我理解正确的话,你真正想要输出的是一个 two-column CSV,第一列是名字,我假设它来自原始 CSV 的第一列,e-mail 在第二列中。

如果我的假设是正确的,这应该对你有用:

import csv

with open('data.csv', 'r', encoding='utf-8-sig', newline='') as file:
    reader = csv.reader(file)
    header = list(next(reader))

    emails = []
    for items in reader:
        name = items[0]
        for item in items:
            if '@' in item:
                if not (name, item) in emails:
                    emails.append((name, item))
                

    with open('result.csv', 'a', encoding='utf-8-sig', newline='') as file:
        writer = csv.writer(file, delimiter=';')
        for email in emails:
            writer.writerow(email)

输出:

Магазин автозапчастей;grandauto007@mail.ru
Спектр-Авто;+79233940022@yandex.ru

我在您的代码中更改的内容:

  • 输入的 CSV header 现在被读入 header - 你想用它做些什么吗?
  • 现在为输入 CSV 中的每一行设置名称 items[0]
  • emails 列表现在是(姓名、电子邮件)对的列表。
  • 优化细节:您不需要将 reader 变成一个列表来迭代它。只要说 for items in reader:,它会更有效率,因为它会在读取每一行时处理它,而不是将它们全部存储到列表中。
import petl

table = petl.fromcsv('data.csv', encoding='utf-8-sig')
table2 = petl.addfield(table, 'email_address', lambda r: [r[r1] for r1 in petl.header(table) if '@' in r[r1]])
table3 = petl.cut(table2, 'Наименование', 'email_address')
petl.tocsv(table3, 'result.csv', encoding='utf-8-sig', delimiter=';', write_header=True)
  1. 将 CSV 文件加载到 table
  2. 创建一个新字段(列),它是包含电子邮件地址的任何字段的集合
  3. 减少(剪切)table 以仅包含 2 个重要字段:'Наименование', 'email_address'
  4. 将结果输出为 CSV

输出:

Наименование;email_address
Магазин автозапчастей;['grandauto007@mail.ru']
Спектр-Авто;['+79233940022@yandex.ru']

一定要安装petl:

pip install petl