分配给字典时如何拆分许多不同的分隔符

Question

为了练习如何更流利地使用字典，我尝试编写一个程序来读取月球大气的化学成分，并将元素及其估计的成分分配为键值对，如下所示"NEON 20":40000

数据文件看起来像这样

Estimated Composition (night, particles per cubic cm):
Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000
Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000
Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000

到目前为止我的代码如下所示：

def read_data(filename):
    dicti = {}

    with open(filename,"r") as infile:
        infile.readline()

        for line in infile:
            words = line.split(";")
            dicti[words[0]] = f"{words[1]}"

    for key in dicti:
        print(key, dicti[key])

read_data("atm_moon.txt")

我的问题是：

如何拆分 "-" 和 ";"？
如何从该数据文件中以简单而优雅的方式将元素及其估计的大气成分指定为键值对？
如何让元素名称全部大写？

有好心人帮菜鸟出出力吗？欢迎所有帮助。

Answer 1

要用多个定界符分割，有正则表达式：Split Strings into words with multiple word boundary delimiters

或者你可以先把所有的分隔符替换成只保留一种，然后再用.split()

我不确定你想如何用它制作字典，但你总是可以循环遍历新创建的列表，然后一个一个地分配它（或使用生成器）。如果你包括字典应该是什么样子，我可以提供一个例子。

要将字符串更改为大写，请使用：

"abc".upper()
# ABC

Answer 2

我觉得使用 Python REPL 来测试它更容易。

$ python

>>> string = """\
Estimated Composition (night, particles per cubic cm):
Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000
Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000
Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000\
"""
>>> lines = string.split('\n')
>>> lines
['Estimated Composition (night, particles per cubic cm):', 'Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000', 'Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000', 'Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000']
>>> lines[1:]
['Helium 4 - 40,000 ; Neon 20 - 40,000 ; Hydrogen - 35,000', 'Argon 40 - 30,000 ; Neon 22 - 5,000 ; Argon 36 - 2,000', 'Methane - 1000 ; Ammonia - 1000 ; Carbon Dioxide - 1000']
>>> [line.split(' ; ') for line in lines[1:]]
[['Helium 4 - 40,000', 'Neon 20 - 40,000', 'Hydrogen - 35,000'], ['Argon 40 - 30,000', 'Neon 22 - 5,000', 'Argon 36 - 2,000'], ['Methane - 1000', 'Ammonia - 1000', 'Carbon Dioxide - 1000']]
>>> [line.split(' - ') for line in lines[1:] for line in line.split(' ; ')]
[['Helium 4', '40,000'], ['Neon 20', '40,000'], ['Hydrogen', '35,000'], ['Argon 40', '30,000'], ['Neon 22', '5,000'], ['Argon 36', '2,000'], ['Methane', '1000'], ['Ammonia', '1000'], ['Carbon Dioxide', '1000']]\

最后，创建具有所需映射的字典对象：

>>> dict([line.split(' - ') for line in lines[1:] for line in line.split(' ; ')])
{'Helium 4': '40,000', 'Neon 20': '40,000', 'Hydrogen': '35,000', 'Argon 40': '30,000', 'Neon 22': '5,000', 'Argon 36': '2,000', 'Methane': '1000', 'Ammonia': '1000', 'Carbon Dioxide': '1000'}

要根据需要转换键值对（即通过大写字典中的所有键并将所有值转换为 int），您可以使用辅助函数来转换键值对，如下所示以下：

>>> transform = lambda x, y: (x.upper(), int(y.replace(',', '')))
>>> dict([transform(*name_line.split(' - ')) for line in lines[1:] for name_line in line.split(' ; ')])
{'HELIUM 4': 40000, 'NEON 20': 40000, 'HYDROGEN': 35000, 'ARGON 40': 30000, 'NEON 22': 5000, 'ARGON 36': 2000, 'METHANE': 1000, 'AMMONIA': 1000, 'CARBON DIOXIDE': 1000}

Answer 3

你这里有一个行列表。每行可以包含多个项目，以分号分隔。每个项目（或记录）由一个元素名称、一个连字符和粒子数组成。

您不需要在这里同时拆分不同的分隔符；相反，您可以使用分号拆分单个项目，然后根据连字符将每个项目拆分为字典所需的 key/value 对。

for line in infile:
    for item in line.split(" ; "):
        key, value = item.split(" - ", 1)
        dicti[key.upper()] = value

请注意，我包括了分隔符周围的空格，因此当您拆分时它们会被删除。否则这些将最终出现在您的字典中。另一种方法是使用 strip();这样即使那里有更多（或没有）空间，它也能正常工作。

for line in infile:
    for item in line.split(";"):
        key, value = item.split("-", 1)
        dicti[key.strip().upper()] = value.strip()

但是，如果您的某条记录中可能有分号或连字符 而不是 作为分隔符，我会将空格保留在.split() 电话。

现在我要更进一步，假设您需要这些值作为实际数字，而不仅仅是字符串。为此，我们将删除逗号并将它们转换为整数。

for line in infile:
    for item in line.split(";"):
        key, value = item.split("-", 1)
        dicti[key.strip().upper()] = int(value.strip().replace(",", ""))

如果有任何带有小数部分（小数点）的值，您可以使用 float() 代替 int() 将它们转换为浮点数。

分配给字典时如何拆分许多不同的分隔符

How to split on many different delimiters when assigning to dictionary

python

string

dictionary

split

uppercase