【发布时间】:2020-09-13 12:28:23
【问题描述】:
我正在尝试从网页中抓取附加到文本的timestamp。我可以完美地抓取文本,但找不到时间戳。不过,我可以从那里刮掉附加到 cmets 的其他时间戳。 cmets 中的时间戳可以在脚本标签中找到,作为created_at 的值。但是,我找不到我要的那个。
我试过了:
import re
import json
import requests
url = 'https://www.instagram.com/p/CEuX_8iH95S/'
with requests.Session() as s:
s.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
r = s.get(url)
script_tag = json.loads(re.findall(r"window\._sharedData = (.*?});",r.text)[0])
post_content = script_tag['entry_data']['PostPage'][0]['graphql']['shortcode_media']['edge_media_to_caption']['edges'][0]['node']['text']
print(post_content)
如何从上面的网站解析附加到文本的时间戳?
【问题讨论】:
标签: python python-3.x web-scraping python-requests