如何从 pandas 数据框中提取特定的字符串数据
How to extract specific string data from a pandas dataframe
我有这个数据框需要从描述栏中提取包裹信息(ML、KG、PZA、LT、UN 等),我在 pandas 还是个新手。
这是现在的数据框
SKU
Description
1
TRIDENT 6S SANDIA 9GR
2
CANAST RABBIT F1 A 1UN
3
HAND SOAP VITAMIN E 442 ML.
我要把9GR、1UN、442ML等提取出来放到另外一栏,有什么办法。我真的很感激这一点。问候
您可以使用这个正则表达式:
pkg = ['ML', 'KG', 'PZA', 'LT', 'UN', 'GR']
df['package'] = df['Description'].str.extract(fr"\b(\d+\s*(?:{'|'.join(pkg)}))\b")
print(df)
# Output
SKU Description package
0 1 TRIDENT 6S SANDIA 9GR 9GR
1 2 CANAST RABBIT F1 A 1UN 1UN
2 3 HAND SOAP VITAMIN E 442 ML. 442 ML
我有这个数据框需要从描述栏中提取包裹信息(ML、KG、PZA、LT、UN 等),我在 pandas 还是个新手。 这是现在的数据框
SKU | Description |
---|---|
1 | TRIDENT 6S SANDIA 9GR |
2 | CANAST RABBIT F1 A 1UN |
3 | HAND SOAP VITAMIN E 442 ML. |
我要把9GR、1UN、442ML等提取出来放到另外一栏,有什么办法。我真的很感激这一点。问候
您可以使用这个正则表达式:
pkg = ['ML', 'KG', 'PZA', 'LT', 'UN', 'GR']
df['package'] = df['Description'].str.extract(fr"\b(\d+\s*(?:{'|'.join(pkg)}))\b")
print(df)
# Output
SKU Description package
0 1 TRIDENT 6S SANDIA 9GR 9GR
1 2 CANAST RABBIT F1 A 1UN 1UN
2 3 HAND SOAP VITAMIN E 442 ML. 442 ML