爬虫 视频讲座
[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?
YouTube https://www.youtube.com/watch?v=0pWJHy_fNWA
2016年1月31日发布
透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。
安裝步驟:
下載並安裝 Anaconda Python
在Anaconda Command Prompt 鍵入 pip install scrapy
開啟爬蟲專案: scrapy startproject apple
網路爬蟲實戰教學 25集的一个系列教学
YouTube https://www.youtube.com/playlist?list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF
1. 什麼是網路爬蟲?
YouTube https://www.youtube.com/watch?v=ceUhb2-gYOU&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF
2015年4月13日发布
爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。
什麼是網路爬蟲?
開始使用Python撰寫網路爬蟲 (Crawler)
如何使用GET 抓取網頁內容?
如何使用Python 套件: BeautifulSoup4 剖析網頁內容?
如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?
如何使用POST 抓取網頁內容?
[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?
[爬蟲實戰] 如何抓取心食譜的食譜資訊?
[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?
[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?
[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?
[爬蟲實戰] 如何抓取集保戶股權分散表?
如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例
如何使用RSelenium 抓取PTT Food版的內容?
[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?
如何透過網路爬蟲將網路圖片存放至SQLite之中?
[爬蟲實戰] 如何爬取PTT的網頁?
[爬蟲實戰] 如何剖析PTT的網頁?
探索Facebook 隱藏的秘密: 使用Python 存取 Facebook 資訊
探索Facebook 隱藏的秘密: 使用Graph API
[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?
[爬蟲實戰] 如何抓取圖表內的價格資訊?
[爬蟲實戰] 如何抓取591租屋網的資訊?
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 1)?
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?
25
Out[27]:
[\'https://www.youtube.com/watch?v=ceUhb2-gYOU&index=1&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=woJ2ZpQ1Q9I&index=2&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=PzCP8cenOEc&index=3&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=ETvkf5a5rUo&index=4&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=6f2O4LEU058&index=5&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=Ef0kh6NPiBE&index=6&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=CDwUsqpgYpU&index=7&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=YvR39jTbcRc&index=8&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=g49HtnX3SOo&index=9&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=MQH4Rau_F_A&index=10&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=DF47h_hhGZw&index=11&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=oSVCSFBcE4U&index=12&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=4NFHIW43GAY&index=13&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=PYy5C9IIgp8&index=14&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=G5MDpnGsE-k&index=15&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=kmaLelILvb8&index=16&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=4_b3hsezf0w&index=17&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=pudl3-BzFok&index=18&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=lxUIgZj9wfg&index=19&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=VXVE9ql85n8&index=20&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=_0WTohwhPHk&index=21&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=kPIfXmQIW6A&index=22&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=zzMRbrOHlrk&index=23&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=KESG8I9C3oA&index=24&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\',
\'https://www.youtube.com/watch?v=zmHVG6c_kFo&index=25&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\']
25
[\'3:22\',
\'3:11\',
\'3:15\',
\'3:34\',
\'3:03\',
\'3:13\',
\'3:01\',
\'3:45\',
\'5:41\',
\'8:02\',
\'6:54\',
\'4:07\',
\'4:49\',
\'5:36\',
\'3:46\',
\'3:58\',
\'1:58\',
\'3:48\',
\'2:50\',
\'3:50\',
\'3:29\',
\'3:46\',
\'3:31\',
\'6:01\',
\'7:51\']
import requests
import pandas as pd
from lxml import html
from pprint import pprint
url=\'https://www.youtube.com/playlist?list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF\'
response = requests.get(url)
html_code=response.content
doc = html.fromstring(html_code, parser=html.HTMLParser(encoding=\'utf8\'))
url_base = \'https://www.youtube.com\'
https://www.youtube.com/watch?v=woJ2ZpQ1Q9I&index=2&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF
links = doc.xpath(\'//td[@class="pl-video-thumbnail"]/span/a/@href\')
links = doc.xpath(\'//td[@class="pl-video-title"]/a/@href\')
links = [url_base+link for link in links ]
pprint(len(links))
titles = doc.xpath(\'//td[@class="pl-video-title"]/a/text()\')
pprint(titles)
3:11
times_ = doc.xpath(\'//td[@class="pl-video-time"]//div[@class="timestamp"]/span/text()\')
print len(times_)
pprint(times_)
for t in titles:
print t.replace(\'\n\',\'\')