有什么方法可以解释 Python 中字符串中的所有定界符吗?
Is there any way to account for all delimiters in a string in Python?
我正在尝试为一本书(.txt 文件)创建字数统计,并且我正在尝试使用以下方法将每一行拆分为单独的字词:
temp = re.split('[; |, |\*|\n| |\|:|.|’|"|&|#|$|(|)|]|//|'']', line)
但是,这不起作用,因为每次我 运行 程序时,我都必须在列表中添加另一个分隔符。这次我必须添加 '-' 和 '%'。我记得在 Java 中做了类似的事情,我可以在其中指定一个 'range' 分隔符,当我在这里尝试同样的事情时,它似乎没有用。
有没有更好的方法来做到这一点,并确保我只听到这个词,没有别的?
我认为您正在寻找 \W
,所有非单词字符的集合,即不是字母、数字或下划线。
即
temp = re.split('\W+', line)
顺便说一句,正则表达式字符集中的字符大多是文字。你的归结为:
[; |,*\n:.’"&#$()]/']
我正在尝试为一本书(.txt 文件)创建字数统计,并且我正在尝试使用以下方法将每一行拆分为单独的字词:
temp = re.split('[; |, |\*|\n| |\|:|.|’|"|&|#|$|(|)|]|//|'']', line)
但是,这不起作用,因为每次我 运行 程序时,我都必须在列表中添加另一个分隔符。这次我必须添加 '-' 和 '%'。我记得在 Java 中做了类似的事情,我可以在其中指定一个 'range' 分隔符,当我在这里尝试同样的事情时,它似乎没有用。
有没有更好的方法来做到这一点,并确保我只听到这个词,没有别的?
我认为您正在寻找 \W
,所有非单词字符的集合,即不是字母、数字或下划线。
即
temp = re.split('\W+', line)
顺便说一句,正则表达式字符集中的字符大多是文字。你的归结为:
[; |,*\n:.’"&#$()]/']