数据清理 - 删除尾随短语

Data Cleaning - removing trailing phrases

我正在清理一些数据,想知道如何删除结尾的短语。我不想去掉所有的数字,因为有些口味有数字。第一个table是预清洗的数据,第二个table是我想要的

Flavor
Orange 5 ml
Cherry
Strawberry 5 mg/ml
#1 flavor
Passion fruit 1.
Cherry Blossom
Flavor
Orange
Cherry
Strawberry
#1 flavor
Passion fruit
Cherry Blossom

与所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我编写了一个正则表达式,您可以使用它来删除数字、空格、单位(mlmg)、斜线(/)和句点(.) 来自字符串的 end:

\s*\b[/mgl\d\s.]+$

你可以这样使用它:

df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)