分配给字典时如何拆分许多不同的分隔符

How to split on many different delimiters when assigning to dictionary

为了练习如何更流利地使用字典,我尝试编写一个程序来读取月球大气的化学成分,并将元素及其估计的成分分配为键值对,如下所示"NEON 20":40000

数据文件看起来像这样

Estimated Composition (night, particles per cubic cm):
Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000
Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000
Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000

到目前为止我的代码如下所示:

def read_data(filename):
    dicti = {}

    with open(filename,"r") as infile:
        infile.readline()

        for line in infile:
            words = line.split(";")
            dicti[words[0]] = f"{words[1]}"

    for key in dicti:
        print(key, dicti[key])

read_data("atm_moon.txt")

我的问题是:

有好心人帮菜鸟出出力吗? 欢迎所有帮助。

要用多个定界符分割,有正则表达式:Split Strings into words with multiple word boundary delimiters

或者你可以先把所有的分隔符替换成只保留一种,然后再用.split()

我不确定你想如何用它制作字典,但你总是可以循环遍历新创建的列表,然后一个一个地分配它(或使用生成器)。如果你包括字典应该是什么样子,我可以提供一个例子。

要将字符串更改为大写,请使用:

"abc".upper()
# ABC

我觉得使用 Python REPL 来测试它更容易。

$ python

>>> string = """\
Estimated Composition (night, particles per cubic cm):
Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000
Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000
Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000\
"""
>>> lines = string.split('\n')
>>> lines
['Estimated Composition (night, particles per cubic cm):', 'Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000', 'Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000', 'Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000']
>>> lines[1:]
['Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000', 'Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000', 'Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000']
>>> [line.split(' ; ') for line in lines[1:]]
[['Helium 4 - 40,000', 'Neon 20 - 40,000', 'Hydrogen - 35,000'], ['Argon 40 - 30,000', 'Neon 22 - 5,000', 'Argon 36 - 2,000'], ['Methane - 1000', 'Ammonia - 1000', 'Carbon Dioxide - 1000']]
>>> [line.split(' - ') for line in lines[1:] for line in line.split(' ; ')]
[['Helium 4', '40,000'], ['Neon 20', '40,000'], ['Hydrogen', '35,000'], ['Argon 40', '30,000'], ['Neon 22', '5,000'], ['Argon 36', '2,000'], ['Methane', '1000'], ['Ammonia', '1000'], ['Carbon Dioxide', '1000']]\

最后,创建具有所需映射的字典对象:

>>> dict([line.split(' - ') for line in lines[1:] for line in line.split(' ; ')])
{'Helium 4': '40,000', 'Neon 20': '40,000', 'Hydrogen': '35,000', 'Argon 40': '30,000', 'Neon 22': '5,000', 'Argon 36': '2,000', 'Methane': '1000', 'Ammonia': '1000', 'Carbon Dioxide': '1000'}

要根据需要转换键值对(即通过大写字典中的所有键并将所有值转换为 int),您可以使用辅助函数来转换键值对,如下所示以下:

>>> transform = lambda x, y: (x.upper(), int(y.replace(',', '')))
>>> dict([transform(*name_line.split(' - ')) for line in lines[1:] for name_line in line.split(' ; ')])
{'HELIUM 4': 40000, 'NEON 20': 40000, 'HYDROGEN': 35000, 'ARGON 40': 30000, 'NEON 22': 5000, 'ARGON 36': 2000, 'METHANE': 1000, 'AMMONIA': 1000, 'CARBON DIOXIDE': 1000}

你这里有一个行列表。每行可以包含多个项目,以分号分隔。每个项目(或记录)由一个元素名称、一个连字符和粒子数组成。

您不需要在这里同时拆分不同的分隔符;相反,您可以使用分号拆分单个项目,然后根据连字符将每个项目拆分为字典所需的 key/value 对。

for line in infile:
    for item in line.split(" ; "):
        key, value = item.split(" - ", 1)
        dicti[key.upper()] = value

请注意,我包括了分隔符周围的空格,因此当您拆分时它们会被删除。否则这些将最终出现在您的字典中。另一种方法是使用 strip();这样即使那里有更多(或没有)空间,它也能正常工作。

for line in infile:
    for item in line.split(";"):
        key, value = item.split("-", 1)
        dicti[key.strip().upper()] = value.strip()

但是,如果您的某条记录中可能有分号或连字符 而不是 作为分隔符,我会将空格保留在.split() 电话。

现在我要更进一步,假设您需要这些值作为实际数字,而不仅仅是字符串。为此,我们将删除逗号并将它们转换为整数。

for line in infile:
    for item in line.split(";"):
        key, value = item.split("-", 1)
        dicti[key.strip().upper()] = int(value.strip().replace(",", ""))

如果有任何带有小数部分(小数点)的值,您可以使用 float() 代替 int() 将它们转换为浮点数。