使用电子邮件数据 0.3.4 使用 Python 3.6 读取 .eml 文件
Reading .eml files with Python 3.6 using emaildata 0.3.4
我正在使用 python 3.6.1,我想读入电子邮件文件 (.eml) 进行处理。我正在使用 emaildata 0.3.4 包,但是每当我尝试导入文档中的文本 class 时,我都会收到模块错误:
import email
from email.text import Text
>>> ModuleNotFoundError: No module named 'cStringIO'
当我尝试使用 进行更正时,我得到了下一个与 mimetools
有关的错误
>>> ModuleNotFoundError: No module named 'mimetools'
是否可以使用 emaildata 0.3.4 和 python 3.6 来解析 .eml 文件?或者是否有任何其他包可以用来解析 .eml 文件?谢谢
使用email包,我们可以读入.eml文件。然后,使用 BytesParser
库来解析文件。最后,使用 plain
首选项(对于纯文本)和 get_body()
方法,以及 get_content()
方法来获取电子邮件的原始文本。
import email
from email import policy
from email.parser import BytesParser
import glob
file_list = glob.glob('*.eml') # returns list of files
with open(file_list[2], 'rb') as fp: # select a specific email file from the list
msg = BytesParser(policy=policy.default).parse(fp)
text = msg.get_body(preferencelist=('plain')).get_content()
print(text) # print the email content
>>> "Hi,
>>> This is an email
>>> Regards,
>>> Mister. E"
当然,这是一个简化的示例 - 没有提及 HTML 或附件。但它基本上完成了问题的要求和我想做的事情。
以下是如何遍历多封电子邮件并将每封电子邮件另存为纯文本文件:
file_list = glob.glob('*.eml') # returns list of files
for file in file_list:
with open(file, 'rb') as fp:
msg = BytesParser(policy=policy.default).parse(fp)
fnm = os.path.splitext(file)[0] + '.txt'
txt = msg.get_body(preferencelist=('plain')).get_content()
with open(fnm, 'w') as f:
print('Filename:', txt, file = f)
我正在使用 python 3.6.1,我想读入电子邮件文件 (.eml) 进行处理。我正在使用 emaildata 0.3.4 包,但是每当我尝试导入文档中的文本 class 时,我都会收到模块错误:
import email
from email.text import Text
>>> ModuleNotFoundError: No module named 'cStringIO'
当我尝试使用 mimetools
>>> ModuleNotFoundError: No module named 'mimetools'
是否可以使用 emaildata 0.3.4 和 python 3.6 来解析 .eml 文件?或者是否有任何其他包可以用来解析 .eml 文件?谢谢
使用email包,我们可以读入.eml文件。然后,使用 BytesParser
库来解析文件。最后,使用 plain
首选项(对于纯文本)和 get_body()
方法,以及 get_content()
方法来获取电子邮件的原始文本。
import email
from email import policy
from email.parser import BytesParser
import glob
file_list = glob.glob('*.eml') # returns list of files
with open(file_list[2], 'rb') as fp: # select a specific email file from the list
msg = BytesParser(policy=policy.default).parse(fp)
text = msg.get_body(preferencelist=('plain')).get_content()
print(text) # print the email content
>>> "Hi,
>>> This is an email
>>> Regards,
>>> Mister. E"
当然,这是一个简化的示例 - 没有提及 HTML 或附件。但它基本上完成了问题的要求和我想做的事情。
以下是如何遍历多封电子邮件并将每封电子邮件另存为纯文本文件:
file_list = glob.glob('*.eml') # returns list of files
for file in file_list:
with open(file, 'rb') as fp:
msg = BytesParser(policy=policy.default).parse(fp)
fnm = os.path.splitext(file)[0] + '.txt'
txt = msg.get_body(preferencelist=('plain')).get_content()
with open(fnm, 'w') as f:
print('Filename:', txt, file = f)