查看搜狐博客的列表页面的源代码会发现,列表的内容在源代码里面不存在,搜狐博客是通过AJAX的方式动态加载日志列表的。以 http://zouhengfu.blog.sohu.com/entry/ 为样本来进行分析:

日志的列表与分页分别会在下面的代码里:

1搜狐博客列表页面分析<div id="entryList">
2搜狐博客列表页面分析   <div style="line-height:100px;">正在加载日志数据搜狐博客列表页面分析</div>
3搜狐博客列表页面分析</div>
4搜狐博客列表页面分析<div class="item-info">
5搜狐博客列表页面分析   <div id="pageText"></div>
6搜狐博客列表页面分析</div>


FireBug的分析,发现实际的日志列表内容是由:http://zouhengfu.blog.sohu.com/action/v_frag-ebi_c223f68792-pg_2/entry/ 提供的

在这个URL中,从左到右:

zouhengfu 不具有标识作用,替换成www一样可以
c223f68792 由源代码中var _ebi = 'c223f68792'执行escape而得到:
var url='/action/v_frag-ebi_'+escape(_ebi); //common.v.081016.js
-pg_2 页码,2代表第二页,可以把此项去掉获得第一页内容

在做搜狐博客抓取时可以参考。

相关文章:

  • 2022-02-20
  • 2022-12-23
  • 2021-10-09
  • 2021-11-03
  • 2022-02-11
  • 2021-04-08
  • 2018-10-28
  • 2021-04-07
猜你喜欢
  • 2021-07-07
  • 2022-01-06
  • 2021-04-11
  • 2022-12-23
  • 2021-11-07
  • 2021-09-08
相关资源
相似解决方案