【发布时间】:2015-08-05 08:28:53
【问题描述】:
我们可以使用 Google 为我们发出提醒。我已经发出了大约 10 个警报,因为我收到了“垃圾邮件”,所以我使用了“每日摘要”选项;我现在每天早上都会收到一条包含所有警报的消息。请注意,单独的警报可以选择将警报转换为 RSS 提要,而不是组合的。
但是,我真的不喜欢这封电子邮件的结构,而且我更愿意以某种方式将其视为可以使用一些 RSS 阅读器阅读的 RSS。
我尝试使用 Python 来收集邮件,并使用了 lxml 和 bs4 来解析它,但是解析起来非常混乱和不一致。
有谁知道用它(标题、正文、链接)创建漂亮的 rss 提要的方法?
我可以从电子邮件中提取 html,here 对于感兴趣的人来说是一个简单的 html 操作。
sp = BeautifulSoup('path/to/html')
for span in sp.findAll('span'):
link = span.find('a')
if link is not None and hasattr(link, 'href'):
print(link.text)
尽管我有 17 个帖子,但它给了我 22 个链接文本。
问题在于,即使是链接和文本也不是一致的。
这与我使用lxml.html 得到的一样接近:
tr = lxml.html.fromstring('path/to/html')
links = tr.xpath('//table/tr/td/div/span/a')
len(links) == 16 # not 17
True
【问题讨论】:
-
为什么不直接使用 Google Alertrs RSS 提要?然后将它们插入IFTTT之类的工具中?
-
@JulienGenestoux 如何创建这些?我看不到如何制作 RSS 提要。我只知道可以在其中设置它们的 Google 快讯,但那是以电子邮件而不是 RSS 提要的形式发送的。
标签: python rss beautifulsoup feed google-alerts