【问题标题】:Cannot download article using newspaper3k无法使用报纸3k 下载文章
【发布时间】:2019-01-18 12:16:38
【问题描述】:

我什至尝试过pypi.org 中的命令,但没有下载任何文章。

from newspaper import Article

url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'
article = Article(url)
article.download()
article.html

article.html 只给出空的 sting ' '。当我尝试 article.parse() 它给出错误 *

你必须先download()一篇文章!

我已经尝试过解决方法

while article.download_state == ArticleDownloadState.NOT_STARTED:
    # Raise exception if article download state does not change after 10 seconds
    if slept > 9:
        raise ArticleException('Download never started')
    sleep(1)
    slept += 1

仍然无法解决问题。

【问题讨论】:

  • 我能够使用 Python 3.6 的 newspaper 库下载和解析这篇文章。如果 HTML 显示为空白,则说明请求存在问题。
  • 它对我不起作用,我找不到解决方案

标签: python web-scraping python-newspaper


【解决方案1】:

有时您必须清理链接,例如来自 RSS 提要。

urlparse python 库可用于 Google 警报。

例子

google_url = 'https://www.google.com/url?rct=j&sa=t&url=https://www.timesnownews.com/international/article/european-union-chief-donald-tusk-lashes-out-at-donald-trump-stance-on-europe/311933&ct=ga&cd=CAIyHDlhZGYyMmM4NzAwYzNlZDc6Y28udWs6ZW46R0I&usg=AFQjCNHrsEaxxjXvWB3wM_1aRjNg6aeZvw'

获取url=之后的变量

from urllib.parse import urlparse, parse_qs
url = urlparse(google_url)
print (parse_qs(url.query)['url'][0])

此外,还要注意,如果未单独分配不同的输出,则会覆盖输出。

在测试脚本期间,输出将仅包含 article.text:

article = Article('https://www.google.com/url?rct=j&sa=t&url=https://www.timesnownews.com/international/article/european-union-chief-donald-tusk-lashes-out-at-donald-trump-stance-on-europe/311933&ct=ga&cd=CAIyHDlhZGYyMmM4NzAwYzNlZDc6Y28udWs6ZW46R0I&usg=AFQjCNHrsEaxxjXvWB3wM_1aRjNg6aeZvw')
article.download()
article.parse()
article.top_image
article.text

这在测试您的脚本期间有效:

top_image = article.top_image
text = article.text
print (top_image, text)

【讨论】:

    猜你喜欢
    • 2022-08-06
    • 2021-01-04
    • 2015-03-13
    • 2010-12-20
    • 1970-01-01
    • 1970-01-01
    • 2017-12-24
    • 2020-12-15
    • 1970-01-01
    相关资源
    最近更新 更多