zd983886992

获取全部校园网信息

1.取出一个新闻列表页的全部新闻 包装成函数。

2.获取总的新闻篇数,算出新闻总页数。

3.获取全部新闻列表页的全部新闻详情。

爬取南科大校园网的新闻

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re


# 获取新闻列表页的简略信息
def crawlOnePage(url):
    res=requests.get(url)
    res.encoding = \'UTF-8\'
    soup = BeautifulSoup(res.text, \'html.parser\')
    cont=soup.select(\'.block\')
    for i in cont:
        print(\'——\'*10 + \'纯洁的分割线\' + \'——\'*10)
        print()
        print(\'新闻网址: \' + \'www.sustc.edu.cn\' + i.select(\'a\')[0][\'href\'])
        print(\'新闻标题: \' + i.select(\'a\')[0][\'title\'])
        a=\'http://www.sustc.edu.cn\' + i.select(\'a\')[0].attrs[\'href\']
        print(a)
        getDetail(a)


        print()

# #获取新闻具体信息
def getDetail(url):
    res = requests.get(url)
    res.encoding = \'UTF-8\'
    soup = BeautifulSoup(res.text, \'html.parser\')
    cont=soup.select(\'.d\')[0].text
    #将时间字符串转换成datetime格式
    release_time=datetime.strptime(cont,\'%Y-%m-%d \')
    print(release_time)
    print(\'新闻类型: \' + soup.select(\'.tag\')[0].text)
    content=soup.select(\'.txt\')[1].select(\'p\')
    print(content[-1].text)
    for i in content[:-2]:
        print(i.text)

#取得所有页面的新闻
def getTotalPage(url):
    res = requests.get(url)
    res.encoding = \'UTF-8\'
    soup = BeautifulSoup(res.text, \'html.parser\')
    # print(res.text)
    d = int(soup.select(\'.page_span\')[0].text[:soup.select(\'.page_span\')[0].text.index(\'页\')].lstrip(\'共\'))
    for i in range(1,d):
        page=str(i)
        geturl=\'http://www.sustc.edu.cn/news_events_/p/\'+page
        crawlOnePage(geturl)



getTotalPage(\'http://www.sustc.edu.cn/news_events_/p/1\')

  运行代码结果

————————————————————纯洁的分割线————————————————————

新闻网址: www.sustc.edu.cn/news_events_/4725
新闻标题: 我校物理系毕业生在《物理评论快报》发表本科期间科研成果
http://www.sustc.edu.cn/news_events_/4725
2018-04-11 00:00:00
新闻类型: 科研新闻
供稿:物理系
       近日,物理学顶级期刊《物理评论快报》(Physical Review Letters, PRL)在线发表了以南方科技大学物理系2013级本科生李策群(目前在美国宾夕法尼亚州立大学攻读博士学位)为第一作者的论文。
 
拓扑节线半金属中费米面结构示意图
       论文题目为“量子振荡的相位在拓扑节线半金属中的定则”(Rules for Phase Shifts of Quantum Oscillations in Topological Nodal-Line Semimetals)。我校物理系研究助理教授王春明为共同第一作者,副教授卢海舟为通讯作者。南科大是论文第一单位,该论文由南科大、南京大学和北京大学的合作者共同完成。

​李策群在2018美国物理学会会议上做学术报告 
       李策群是我校物理系2013级本科生,2017年夏季毕业后赴美国宾夕法尼亚州立大学攻读博士学位。李策群从大三开始就进入卢海舟课题组进行研究,在王春明和卢海舟的指导下,于大四期间完成了论文中大部分理论计算。
       这是李策群第三次在国际学术期刊上发表自己本科期间的科研成果。此前他在物理系副教授徐虎的指导下,以第一作者在美国物理联合会(AIP)旗下国际学术期刊《化学物理》(The Journal of Chemical Physics)发表了关于提高金属氧化物表面活性的研究成果,后受邀至意大利 University of Milano Bicocca 访问并与该校的课题组合作完成了题为“CO adsorption on graphite-like ZnO bilayers supported on Cu(111), Ag(111), and Au(111) surfaces”的论文,该论文已在美国化学学会(ACS)旗下期刊《物理化学C》(The Journal of Physical Chemistry C)上发表。今年三月,李策群在洛杉矶参加了美国物理学会举办的三月会议(APS March Meeting 2018),并在学术报告中向参会人员介绍自己的研究工作。

       论文链接:
       https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.146602 

————————————————————纯洁的分割线————————————————————

新闻网址: www.sustc.edu.cn/news_events_/4722
新闻标题: 南科大化学系李闯创课题组在《美国化学会志》发表封面文章  在国际上首次完成Cyclocitrinol全合成
http://www.sustc.edu.cn/news_events_/4722
2018-04-09 00:00:00
新闻类型: 综合新闻
供稿:化学系

 分析文章《活在叔本华的世界里》

import jieba
import re
f = open("C:/Users/ZD/PycharmProjects/test/test.txt", \'r\', encoding=\'utf8\')
str = f.read()
f.close()


wordList = jieba.cut(str)
wordList = list(jieba.cut(str))

wordDic = {}
for i in set(wordList):
    wordDic[i] = wordList.count(i)

sort_word = sorted(wordDic.items(), key=lambda d: d[1], reverse=True)
for i in range(20):
    print(sort_word[i])

  

分类:

技术点:

相关文章:

  • 2021-07-17
  • 2021-09-17
  • 2021-06-04
  • 2022-12-23
  • 2021-07-14
猜你喜欢
  • 2021-10-02
  • 2021-06-25
相关资源
相似解决方案