【发布时间】:2018-10-08 01:47:54
【问题描述】:
我是 python 和刮的新手。尽管如此,我还是花了几天时间尝试从其存档中抓取新闻文章 - 成功。
问题是,当我抓取文章 <p> 的内容时,该内容充满了额外的标签,例如 - strong、a 等。因此,scrapy 不会把它拉出来,我只剩下新闻了文章占正文的 2/3。将在下面尝试 HTML:
<p> According to <a> Japan's newspapers </a> it happened ... </p>
现在我尝试用谷歌搜索并查看这里的论坛。有一些建议,但根据我的尝试,它不起作用或破坏了我的蜘蛛:
我已阅读有关规范化空间和删除标签的信息,但它没有用。感谢您提前提供任何见解。
【问题讨论】:
-
欢迎来到 Stack Overflow!请不要将您的代码作为图像发布。难以阅读,阻止基于文本的搜索,并降低帖子的整体展示价值。
标签: scrapy scrapy-spider scrape