您可以从 Pandas Dataframe 中删除测量值 - g/kg/ml 等吗?
Can you remove measurements - g/kg/ml etc from a Pandas Dataframe?
我正在对一个特定列上的数据集进行一些预处理'Title'我已经删除了数字和标点符号。但也想删除测量。测量值不在单独的列中,它们在标题列中。
#Load data set
df = pd.read_csv (r'example')
#df = pd.read_csv (r'example)
# remove numbers and punctuation
df['Title'] = df['Title'].str.replace(r'[^\w\s]+', '')
df['Title'] = df['Title'].str.replace('\d+', '')
print (df['Title'])
Return and the dataset column
df['Title'] = df['Title'].str.replace(r'\sg$|\skg$|\sml$', '')
举个例子。
或者更一般地说,删除最后一个词将相当于:
df['Title'] = df['Title'].str.replace(r'\s[a-z]+$', '')
您可以再次使用正则表达式。
df['Title'] = df['Title'].str.replace('xg$|g$|kg$|ml$', '')
美元符号充当字符串结尾的锚点。
我正在对一个特定列上的数据集进行一些预处理'Title'我已经删除了数字和标点符号。但也想删除测量。测量值不在单独的列中,它们在标题列中。
#Load data set
df = pd.read_csv (r'example')
#df = pd.read_csv (r'example)
# remove numbers and punctuation
df['Title'] = df['Title'].str.replace(r'[^\w\s]+', '')
df['Title'] = df['Title'].str.replace('\d+', '')
print (df['Title'])
Return and the dataset column
df['Title'] = df['Title'].str.replace(r'\sg$|\skg$|\sml$', '')
举个例子。 或者更一般地说,删除最后一个词将相当于:
df['Title'] = df['Title'].str.replace(r'\s[a-z]+$', '')
您可以再次使用正则表达式。
df['Title'] = df['Title'].str.replace('xg$|g$|kg$|ml$', '')
美元符号充当字符串结尾的锚点。