【发布时间】:2018-05-26 04:07:01
【问题描述】:
我正在尝试在 url(链接)列表上运行 for 循环,以抓取“脚本”中的 html 数据并将其转换为可以提取“htmlOutputFileUrl”的格式。但是,每当我运行代码时,我都会收到错误“JSONDecodeError: Unterminated string started at: line 1 column 2998 (char 2997)”,甚至无法尝试提取该信息。
我无法按照下面显示的方式转换“脚本”还是我的代码格式不正确?
我使用的第一个网址是:'http://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners'
import requests
import json
import csv
from bs4 import BeautifulSoup
from lxml import etree
for url in links:
test = requests.get(url)
getTest=test.text
data = BeautifulSoup(getTest, "lxml")
update = data.find('div',class_='site-layout__main-content').find('script').text.split(";")
dataLoad = json.loads((update[2][update[2].index('{'):len(update[2])-1]))
print (dataLoad)
【问题讨论】:
标签: python json web-scraping beautifulsoup lxml