转换为小写:每个字母都被标记化

Converting to lower-case: every letter gets tokenized

我有一个文本文档,我想将其转换为小写,但是当我按照以下方式执行此操作时,文档中的每个字母都会被标记化。为什么会这样?

with open('assign_1.txt') as g:
    assign_1 = g.read()
assign_new = [word.lower() for word in assign_1]

我得到的:

assign_new
['b',
'a',
'n',
'g',
'l',
'a',
'd',
'e',
's',
'h',]

您遍历了整个输入,一次一个字符,将每个字符降为小写,然后指定结果为列表。比这更简单:

assign_lower = g.read().lower()

使用变量 "word" 不会使您遍历单词 -- assign_1 仍然是一个字符序列。

如果你想把它分解成单词,使用split方法......它独立于小写操作。