【发布时间】:2012-07-22 15:20:51
【问题描述】:
使用 Python,我想在来源很大的网页上抓取数据(它是某个用户的 Facebook 页面)。
假设 URL 是我要抓取的 URL。我运行以下代码:
import urllib2
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
数据应该包含我正在抓取的页面的来源,但由于某种原因,当我直接与页面的来源进行比较时,它不包含所有可用的字符。我不知道我做错了什么。我知道我要抓取的页面最近没有更新,所以这不是因为我丢失了一些最近的数据。
有人知道吗?
编辑:我缺少的信息是这样的:
<code class="hidden_elem" id="up82eq_33"><!-- <div class="mbs profileInfoSection"><div class="uiHeader uiHeaderTopAndBottomBorder uiHeaderSection infoSectionHeader"><div class="clearfix uiHeaderTop"><div><h4 tabindex="0" class="uiHeaderTitle">Basic Information</h4></div></div></div><div class="phs"><table class="uiInfoTable mtm profileInfoTable uiInfoTableFixed"><tbody><tr><th class="label">Networks</th><td class="data"><div class="uiCollapsedList uiCollapsedListHidden" id="up82eq_32"><span class="visible">XXXX</span></div></td></tr></tbody></table></div></div> --></code>
基本上是我感兴趣的某个领域。令我惊讶的是我可以得到一些个领域,但不是全部。
【问题讨论】:
-
javascript 可能正在加载一些内容,而您的爬虫没有执行它?
-
你检查过代码字符集吗?
-
@dyoser 我确实检查了代码字符集,感谢您的建议,但不幸的是这不是我的问题的原因。
标签: python web-crawler