【发布时间】:2013-04-30 17:01:00
【问题描述】:
我正在使用 Python 和 imaplib 从 IMAP 服务器获取电子邮件(支持各种 IMAP 服务器 - GMail 等)。
我的问题是:使用 IMAP BODY[INDEX] 命令获取特定的正文部分,HTML 带有额外的选项卡。如:
(...)</a>\t\t\t\t\t\t\t\t<a>(...)
当显示 HTML 时,标签显然是额外的:
(屏幕截图是葡萄牙语,但我认为这不相关。
我搜索了 IMAP 文档,但没有找到任何帮助。我猜这些 \t 总是跟随标签关闭(例如 \t\t\t\t\t),所以我可以找到标签关闭后的所有标签并删除它们,但我不知道是否这将是一个可靠的方法。
谢谢
【问题讨论】:
-
请向我们展示处理相关文本的代码。
-
制表符对 html 解析器并不重要。它们可能在源文档中。 Html 折叠所有相邻的空白,包括制表符到一个空格。
标签: python html imap mime imaplib