【发布时间】:2012-08-14 20:53:27
【问题描述】:
好的,我正在尝试做的事情有些混乱,所以我再次这样做。我正在寻找针对我的收件箱运行的脚本,它将在电子邮件正文中为我提供发件人地址、主题和 URL。我遇到的问题是脚本的 URL 解析正在从电子邮件中提取所有 URL,而不仅仅是从正文中提取。这是一个例子
收件人:Tom@mail.com
发件人:Joe@test.com
主题:确认你的考试成绩
请访问以下网址以确认您的考试成绩。 WWW.test.com/confirmation 再次感谢您的意见。
签名
乔 (乔斯签名部分有图) 图片的网址是 http://www.test.com/wp-content/uploads/_client_image/66-dcfc0fc8.png
我希望我的输出是
发件人:Joe@test.com
主题:确认你的考试成绩
网址:WWW.test.com/confirmation
我得到了这个
发件人:Joe@test.com
主题:确认你的考试成绩
网址:WWW.test.com/confirmation,http://www.test.com/wp-content/uploads/_client_image/66-dcfc0fc8.png
这是我的脚本
import re
import mailbox
import urlparse
mbx=mailbox.mbox("Mail Box Path")
url_pattern = re.compile('''["']http://[^+]*?['"]''')
for k, m in mbx.iteritems():
print "From %s\n" % m['from']
print "Subject %s\n" % m['subject']
print "URL %s\n" % url_pattern.findall(m.as_string())
【问题讨论】:
-
m.as_string()是否返回 HTML 文本?如果是,您可以使用 BeautifulSoup、lxml.html 来提取链接。