如何删除数据框中的重复字母?
How to remove repeating letter in a dataframe?
我有以下字符串:
"hello, I'm going to eat to the fullest today hhhhhhhhhhhhhhhhhhhhh"
我收集了很多这样的推文并将它们分配给一个数据框。如何通过删除 "hhhhhhhhhhhhhhhhhh" 并只保留该行中的其余字符串来清理数据框中的那些行?
后面我也在用countVectorizer,所以词汇表里有很多'hhhhhhhhhhhhhhhhhhhhhhh'
使用正则表达式。
例如:
import pandas as pd
df = pd.DataFrame({"Col": ["hello, I'm going to eat to the fullest today hhhhhhhhhhhhhhhhhhhhh", "Hello World"]})
#df["Col"] = df["Col"].str.replace(r"\b(.)+\b", "")
df["Col"] = df["Col"].str.replace(r"\s+(.)+\b", "").str.strip()
print(df)
输出:
Col
0 hello, I'm going to eat to the fullest today
1 Hello World
你可以试试这个:
df["Col"] = df["Col"].str.replace(u"h{4,}", "")
在我的情况下,您可以设置要匹配的字符数 4.
Col
0 hello, I'm today hh hhhh hhhhhhhhhhhhhhh
1 Hello World
Col
0 hello, I'm today hh
1 Hello World
我使用了 unicode 匹配,因为你提到你在推文中。
我有以下字符串:
"hello, I'm going to eat to the fullest today hhhhhhhhhhhhhhhhhhhhh"
我收集了很多这样的推文并将它们分配给一个数据框。如何通过删除 "hhhhhhhhhhhhhhhhhh" 并只保留该行中的其余字符串来清理数据框中的那些行?
后面我也在用countVectorizer,所以词汇表里有很多'hhhhhhhhhhhhhhhhhhhhhhh'
使用正则表达式。
例如:
import pandas as pd
df = pd.DataFrame({"Col": ["hello, I'm going to eat to the fullest today hhhhhhhhhhhhhhhhhhhhh", "Hello World"]})
#df["Col"] = df["Col"].str.replace(r"\b(.)+\b", "")
df["Col"] = df["Col"].str.replace(r"\s+(.)+\b", "").str.strip()
print(df)
输出:
Col
0 hello, I'm going to eat to the fullest today
1 Hello World
你可以试试这个:
df["Col"] = df["Col"].str.replace(u"h{4,}", "")
在我的情况下,您可以设置要匹配的字符数 4.
Col
0 hello, I'm today hh hhhh hhhhhhhhhhhhhhh
1 Hello World
Col
0 hello, I'm today hh
1 Hello World
我使用了 unicode 匹配,因为你提到你在推文中。