【发布时间】:2020-03-13 08:51:51
【问题描述】:
def parseRSS(rss_url):
parsed_feed = feedparser.parse(rss_url)
return parsed_feed
def getHeadlines(rss_url,key):
headlines = []
feed = parseRSS(rss_url)
for newsitem in feed['items']:
if newsitem['title'] not in headlines:
headlines.append([newsitem,key])
else:
print("-----------------------Duplicate title found----------------------")
return headlines
def get_rss():
allheadlines = []
newsurls = {
('key1','source1'): 'https://news.google.com/news/rss/?hl=en&ned=us&gl=US',
('key2','source2'): 'https://news.google.com/news/rss/?hl=en&ned=us&gl=US',
}
for key,url in newsurls.items():
allheadlines.extend(getHeadlines(url,key))
return allheadlines
allheadlines = get_rss()
for hl in allheadlines:
source = hl[1][0]
key = hl[1][1]
title = hl[0]['title']
link = hl[0]['link']
我使用相同的 RSS 提要进行测试。每次添加新标题时,我都会检查标题是否已经在标题中。但是,它似乎没有检测到重复的标题。永远不会打印找到的重复标题。我究竟做错了什么?
【问题讨论】:
-
您可以先尝试打印
feed,首先可能没有任何重复的标题。 -
我在本例中使用了两次相同的 rss 提要,以确保标题重复。
-
好的,但你永远不会将
allheadlines传递进去,所以headlines = []总是会让比较变得毫无意义 -
因为你每次运行循环时都会创建
null list -
尝试在您的
getHeadlines函数中传递allheadlines,如果它不起作用则返回
标签: python feedparser