【发布时间】:2017-04-12 07:43:17
【问题描述】:
我想从一个名为 Flipkart 的电子商务网站上抓取定价数据,我尝试将 Beautifulsoup 与 casperjs(nodejs 实用程序)和类似库一起使用,但它们都不够好。
这是网址和结构。 https://www.flipkart.com/redmi-note-4-gold-32-gb/p/itmer37fmekafqct?
问题在于布局...有什么方法可以解决这个问题?
P.S :无论如何我可以在不知道复杂数学的情况下应用机器学习来获取定价数据吗?比如我什至从哪里开始?
【问题讨论】:
-
soup.find('div', { 'class' : '_1vC4OE _37U4_g' }).get_text()maby ?你能发布你的代码吗? -
问题是类名是动态的。它每天都会更新。他们甚至改变了该部分的布局!
-
您可能应该以某种方式构造您的 XPath,使其不依赖于类,而是依赖于您想要匹配的元素的内容 (
node())。data-reactid也会改变吗? -
是的,我问过很多运营价格比较网站的开发人员,他们都说最好从你的抓取机器人中排除 Flipkart,因为它会经常中断。
标签: python web-scraping information-extraction