数据清理 - 删除尾随短语
Data Cleaning - removing trailing phrases
我正在清理一些数据,想知道如何删除结尾的短语。我不想去掉所有的数字,因为有些口味有数字。第一个table是预清洗的数据,第二个table是我想要的
Flavor
Orange 5 ml
Cherry
Strawberry 5 mg/ml
#1 flavor
Passion fruit 1.
Cherry Blossom
Flavor
Orange
Cherry
Strawberry
#1 flavor
Passion fruit
Cherry Blossom
与所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我编写了一个正则表达式,您可以使用它来删除数字、空格、单位(ml
、mg
)、斜线(/
)和句点(.
) 来自字符串的 end:
\s*\b[/mgl\d\s.]+$
你可以这样使用它:
df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)
我正在清理一些数据,想知道如何删除结尾的短语。我不想去掉所有的数字,因为有些口味有数字。第一个table是预清洗的数据,第二个table是我想要的
Flavor |
---|
Orange 5 ml |
Cherry |
Strawberry 5 mg/ml |
#1 flavor |
Passion fruit 1. |
Cherry Blossom |
Flavor |
---|
Orange |
Cherry |
Strawberry |
#1 flavor |
Passion fruit |
Cherry Blossom |
与所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我编写了一个正则表达式,您可以使用它来删除数字、空格、单位(ml
、mg
)、斜线(/
)和句点(.
) 来自字符串的 end:
\s*\b[/mgl\d\s.]+$
你可以这样使用它:
df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)