转换为小写:每个字母都被标记化
Converting to lower-case: every letter gets tokenized
我有一个文本文档,我想将其转换为小写,但是当我按照以下方式执行此操作时,文档中的每个字母都会被标记化。为什么会这样?
with open('assign_1.txt') as g:
assign_1 = g.read()
assign_new = [word.lower() for word in assign_1]
我得到的:
assign_new
['b',
'a',
'n',
'g',
'l',
'a',
'd',
'e',
's',
'h',]
您遍历了整个输入,一次一个字符,将每个字符降为小写,然后指定结果为列表。比这更简单:
assign_lower = g.read().lower()
使用变量 "word" 不会使您遍历单词 -- assign_1
仍然是一个字符序列。
如果你想把它分解成单词,使用split
方法......它独立于小写操作。
我有一个文本文档,我想将其转换为小写,但是当我按照以下方式执行此操作时,文档中的每个字母都会被标记化。为什么会这样?
with open('assign_1.txt') as g:
assign_1 = g.read()
assign_new = [word.lower() for word in assign_1]
我得到的:
assign_new
['b',
'a',
'n',
'g',
'l',
'a',
'd',
'e',
's',
'h',]
您遍历了整个输入,一次一个字符,将每个字符降为小写,然后指定结果为列表。比这更简单:
assign_lower = g.read().lower()
使用变量 "word" 不会使您遍历单词 -- assign_1
仍然是一个字符序列。
如果你想把它分解成单词,使用split
方法......它独立于小写操作。