【发布时间】:2019-06-20 17:07:28
【问题描述】:
我有一个 URL,它为我提供了基于 json 的原始数据,我在将该原始文本导入为 json 文件,甚至将其转换为 csv 时遇到了一些问题。
我尝试使用 urllib3 和 BeautifulSoup 来导入该数据,并将其存储为一个汤对象。我不能做的是将该数据存储为 json 和 csv(我需要两者)。
我认为导致此问题的一个问题是页面顶部存在一行描述返回的结果,但从技术上讲它不是 json 数据的一部分:
可能导致问题的顶部代码:
{
"response":{"numFound":1161,"start":0,"docs":[
{
"applicationType":"UTILITY",
"documentId":"US10010749B2",
"applicationNumber":"US14422067",
我正在使用的库:
import urllib3
from bs4 import BeautifulSoup
import json
一些代码:
url = "https://developer.uspto.gov/ibd-api/v1/patent/application?assignee=alexander&start=0&rows=5"
http = urllib3.PoolManager()
response = http.request('GET', url)
soup = BeautifulSoup(response.data, "html.parser")
print(soup)
json_data = json.load(url)
print(json_data)
AttributeError: 'str' object has no attribute 'read'
我的最终目标是能够“组织和下载”来自 url 的所有数据,并将它们存储为 json 和 csv 格式。
【问题讨论】:
标签: json python-3.x csv beautifulsoup urllib3