python爬虫批量爬取知网文献摘要

  1. 爬虫需要的库
    requests(给服务器发送请求接收目标内容)
    bs4中的BeautifulSoup(解析内容,缩小目标数据查找范围)
    re(准确获取目标数据)
  2. 分析网页
    爬取的目标内容:文献分类目录下的文献摘要
    python3-爬虫爬取知网文献
    需要通过请求获取的内容:每一页的表格,其中的单个文本链接
    python3-爬虫爬取知网文献
    打开web开发者工具在网络一栏找到显示目标数据的文件,获取url
    python3-爬虫爬取知网文献
    python3-爬虫爬取知网文献
    对表格进行翻页,获取相应页面url(点击翻页数字查看属性)
    python3-爬虫爬取知网文献
    对url进行拼接结果如下:
    https://kns.cnki.net/kns/brief/brief.aspx?curpage=key&RecordsPerPage=50&QueryID=id&ID=&turnpage=key&tpagemode=L&dbPrefix=CFLQ&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&
    改变key值对页面翻页,改变id值获得不同标题下的文件信息
    单个页面的链接的爬取(方法详见BeautifulSoup的使用)
    python3-爬虫爬取知网文献
    单个文件url的拼接:
    https://kns.cnki.net/KCMS/+(爬取到的a标签的href属性)
    单个页面中内容的爬取(详见BeautifulSoup的使用)
  3. 爬虫工具的使用
    文件名
    python3-爬虫爬取知网文献
    QueryID和ctl
    python3-爬虫爬取知网文献
    如上图例子中QueryID:7 ctl:8a9652c1-a5a7-4323-b855-026a22066677
    图片中标签的查找方法:对页面下方的页码进行元素查看
    cookie
    进入相应的url页面(url值详见上文页面分析),在开发者工具中打开网络,找到第一个文件cookie复制填入(填入结果如图)
    python3-爬虫爬取知网文献如有需要,爬虫工具另取

相关文章:

  • 2021-05-29
  • 2022-12-23
  • 2022-12-23
  • 2021-11-27
  • 2022-02-08
  • 2021-12-10
  • 2022-12-23
猜你喜欢
  • 2021-04-19
  • 2022-12-23
  • 2022-01-15
  • 2022-01-26
  • 2022-12-23
  • 2021-04-23
  • 2021-11-12
相关资源
相似解决方案