XML 正在解析 Python ElementTree - 嵌套 for 循环

Question

我正在使用 Jupyter Notebook 和 ElementTree (Python 3) 创建数据框并从 XML 文件保存为 csv。这是 XML 格式（爱沙尼亚语）：

<asutused hetk="2020-04-14T03:53:33" ver="2">
    <asutus>
        <registrikood>10000515</registrikood>
        <nimi>Osaühing B.Braun Medical</nimi>
        <aadress />
        <tegevusload>
            <tegevusluba>
                <tegevusloa_number>L04647</tegevusloa_number>
                <alates>2019-12-10</alates>
                <kuni />
                <loaliik_kood>1</loaliik_kood>
                <loaliik_nimi>Eriarstiabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
            <tegevusluba>
                <tegevusloa_number>L04651</tegevusloa_number>
                <alates>2019-12-11</alates>
                <kuni />
                <loaliik_kood>2</loaliik_kood>
                <loaliik_nimi>Õendusabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
        </tegevusload>
        <tootajad>
            <tootaja>
                <kood>D03091</kood>
                <eesnimi>Evo</eesnimi>
                <perenimi>Kaha</perenimi>
                <kutse_kood>11</kutse_kood>
                <kutse_nimi>Arst</kutse_nimi>
                <erialad>
                    <eriala>
                        <kood>E420</kood>
                        <nimi>üldkirurgia</nimi>
                    </eriala>
                </erialad>
            </tootaja>
            <tootaja>
                <kood>N01146</kood>
                <eesnimi>Karmen</eesnimi>
                <perenimi>Mežulis</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N01153</kood>
                <eesnimi>Nele</eesnimi>
                <perenimi>Terras</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N02767</kood>
                <eesnimi>Helena</eesnimi>
                <perenimi>Tern</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N12882</kood>
                <eesnimi>Hanna</eesnimi>
                <perenimi>Leemet</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
        </tootajad>
    </asutus>
</asutused>

每个"asutus"是一家医院，我需要里面的一些资料。这是我的代码：

tree = ET.parse("od_asutused.xml")
root = tree.getroot()

# open a file for writing
data = open('EE.csv', 'w')

# create the csv writer object
csvwriter = csv.writer(data, delimiter=';')
head = []

count = 0
for member in root.findall('asutus'):
    hospital = []
    if count == 0:
        ident = member.find('registrikood').tag
        head.append(id)
        name = member.find('nimi').tag
        head.append(name)
        address = member.find('aadress').tag
        head.append(address)
        facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').tag
        head.append(facility_type)
        site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').tag
        head.append(site_address)
        for elem in member.findall('tegevusload'):
            list_specs = elem.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').tag
            head.append(list_specs)
        csvwriter.writerow(head)
        count = count + 1

    ident = member.find('registrikood').text
    hospital.append(ident)
    name = member.find('nimi').text
    hospital.append(name)
    address = member.find('aadress').text
    hospital.append(address)
    facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').text
    hospital.append(facility_type)
    site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').text
    hospital.append(site_address)
    for spec in elem.findall('tegevusload'):
        list_specs = spec.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').text
        hospital.append(list_specs)
    csvwriter.writerow(hospital)
data.close()

#Upload csv for geocoding
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

#Rename columns
df.rename(columns = {'<built-in function id>':'id', 
                     'nimi':'name',
                     'aadress':'address',
                     'haiglaliik_nimi':'facility_type',
                     'haiglaliik_kood':'facility_type_c',
                     'aadress.1':'site_address',
                     'nimi.1':'list_specs'},
          inplace = True) 

#Add columns
df['country'] = 'Estonia' 
df['cc'] = 'EE'

df.head(10)

以及 df.head(10) 的结果：

Result of dataframe

无论我做什么，"list_specs"都是空白。如何使用每个站点地址的每个 'nimi' 的列表填充此字段？谢谢。

Answer 1

我在您的代码中发现以下几点需要更改：

至少在我的电脑上，调用 csv.writer 会导致换行符加倍。我找到的补救办法是用附加参数：
```
data = open('EE.csv', 'w', newline='\n', encoding='utf-8') 
```
写head用爱沙尼亚列名是没有意义的然后重命名列。另请注意，在 head.append(id) 中，您使用了未声明的变量（id）。但这并不重要，因为我用写作改变了整个部分目标列名称（见下文）。
当您编写要由 read_csv 读取的 CSV 文件时，它应该包含一个固定列数。所以使用循环来写是一种不好的做法一个元素。
你的指令 list_specs = elem.findall(...) 是错误的，因为 elem没有在当前循环中设置。相反，您应该使用 member（但是我用其他方式解决了这个细节）。
仅仅为了使用一次而创建一个变量是没有意义的。更简洁易读的代码是例如hospital.append(member.findtext('nimi')).
为了避免长 XPath 表达式，重复初始部分，我决定设置此路径的临时变量 "in the middle"，例如 tgvLb = member.find('tegevusload/tegevusluba') 然后用亲戚 XPath 从这个节点开始。
您的 rename 指令包含一个不需要的列，即 facility_type_c。您只阅读了 6 列，而不是 7.

因此将代码的中间部分更改为：

data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
csvwriter = csv.writer(data, delimiter=';')
head = ['id', 'name', 'address', 'facility_type', 'site_address', 'list_specs']
csvwriter.writerow(head)
for member in root.findall('asutus'):
    hospital = []
    hospital.append(member.findtext('registrikood'))
    hospital.append(member.findtext('nimi'))
    hospital.append(member.findtext('aadress'))
    tgvLb = member.find('tegevusload/tegevusluba')
    hospital.append(tgvLb.findtext('haiglaliik_nimi'))
    tgvKoht = tgvLb.find('tegevuskohad/tegevuskoht')
    hospital.append(tgvKoht.findtext('aadress'))
    hospital.append(tgvKoht.findtext('teenused/teenus/nimi'))
    csvwriter.writerow(hospital)
data.close()
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

并从您的代码中删除 df.rename。

XML 正在解析 Python ElementTree - 嵌套 for 循环

XML Parsing Python ElementTree - Nested for loops

python

xml

elementtree