Python3 解析电子邮件正文的方式不同于 Python2
Python3 Parsing Email Body Differently than Python2
目前我正在开发一个电子邮件解析器,它只使用 imaplib 建立与我的 gmail 帐户的连接并阅读新电子邮件。
一切正常,当 运行 我的脚本使用 python2(即 "python myScript.py")
时,结果符合预期
例如,如果我有一封如下所示的电子邮件:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Test1
Test2
我的脚本将按预期输出:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Body: Test1
Test2
然而,当运行使用python3时(即"python3 myScript.py"),结果不一样,转义字符显示在邮件正文中,见下文:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Body: b'Test1\r\nTest2\r\n'
下面是用于此过程的代码:
def readMailbox(mail):
res, data = mail.uid('search', None, 'UNSEEN')
i = len(data[0].split())
for x in range(i):
latestEmailUID = data[0].split()[x]
result, emailData = mail.uid('fetch', latestEmailUID, '(RFC822)')
emailMessage = email.message_from_string(emailData[0][1].decode('utf-8'))
emailFrom = str(email.header.make_header(email.header.decode_header(emailMessage['From'])))
emailTo = str(email.header.make_header(email.header.decode_header(emailMessage['To'])))
subject = str(email.header.make_header(email.header.decode_header(emailMessage['Subject'])))
# Body details
for part in emailMessage.walk():
if part.get_content_type() == 'text/plain':
body = part.get_payload(decode=True)
print('To: %s' % emailTo)
print('From: %s' % emailFrom)
print('Subject: %s' % subject)
print('Body: %s' % body)
我将需要能够在不显示转义字符的情况下捕获字符串正文以供稍后使用。任何人都可以向我解释为什么会这样,或者我需要在 python3 中做些什么不同的事情,以便我可以正常解析电子邮件的正文?
感谢您抽出宝贵时间,我们将不胜感激任何正确方向的指导!
字符串前面的'b'表示它还是一个bytes数组,还没有解码。
像其他字符串一样用'utf-8'解码,它应该像人们期望的那样打印特殊字符
...
body = part.get_payload(decode=True)
body = body.decode('utf-8')
print('Body: %s' % body)
...
目前我正在开发一个电子邮件解析器,它只使用 imaplib 建立与我的 gmail 帐户的连接并阅读新电子邮件。
一切正常,当 运行 我的脚本使用 python2(即 "python myScript.py")
时,结果符合预期例如,如果我有一封如下所示的电子邮件:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Test1
Test2
我的脚本将按预期输出:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Body: Test1
Test2
然而,当运行使用python3时(即"python3 myScript.py"),结果不一样,转义字符显示在邮件正文中,见下文:
To: receiver@qwerty.com
From: sender@asdf.com
Subject: Test Subject
Body: b'Test1\r\nTest2\r\n'
下面是用于此过程的代码:
def readMailbox(mail):
res, data = mail.uid('search', None, 'UNSEEN')
i = len(data[0].split())
for x in range(i):
latestEmailUID = data[0].split()[x]
result, emailData = mail.uid('fetch', latestEmailUID, '(RFC822)')
emailMessage = email.message_from_string(emailData[0][1].decode('utf-8'))
emailFrom = str(email.header.make_header(email.header.decode_header(emailMessage['From'])))
emailTo = str(email.header.make_header(email.header.decode_header(emailMessage['To'])))
subject = str(email.header.make_header(email.header.decode_header(emailMessage['Subject'])))
# Body details
for part in emailMessage.walk():
if part.get_content_type() == 'text/plain':
body = part.get_payload(decode=True)
print('To: %s' % emailTo)
print('From: %s' % emailFrom)
print('Subject: %s' % subject)
print('Body: %s' % body)
我将需要能够在不显示转义字符的情况下捕获字符串正文以供稍后使用。任何人都可以向我解释为什么会这样,或者我需要在 python3 中做些什么不同的事情,以便我可以正常解析电子邮件的正文?
感谢您抽出宝贵时间,我们将不胜感激任何正确方向的指导!
字符串前面的'b'表示它还是一个bytes数组,还没有解码。
像其他字符串一样用'utf-8'解码,它应该像人们期望的那样打印特殊字符
...
body = part.get_payload(decode=True)
body = body.decode('utf-8')
print('Body: %s' % body)
...