转换为小写：每个字母都被标记化

Question

我有一个文本文档，我想将其转换为小写，但是当我按照以下方式执行此操作时，文档中的每个字母都会被标记化。为什么会这样？

with open('assign_1.txt') as g:
    assign_1 = g.read()
assign_new = [word.lower() for word in assign_1]

我得到的：

assign_new
['b',
'a',
'n',
'g',
'l',
'a',
'd',
'e',
's',
'h',]

Answer 1

您遍历了整个输入，一次一个字符，将每个字符降为小写，然后指定结果为列表。比这更简单：

assign_lower = g.read().lower()

使用变量 "word" 不会使您遍历单词 -- assign_1 仍然是一个字符序列。

如果你想把它分解成单词，使用split方法......它独立于小写操作。

Converting to lower-case: every letter gets tokenized