【发布时间】:2021-02-21 13:07:38
【问题描述】:
我在尝试构建保存到数据框的刮刀时遇到问题,以便我可以轻松地可视化我刮取的内容。
所以我正在为当地汽车价格抓取 OLX(市场网站)(因为汽车有很多功能,这使得这种东西很酷)所以我可以拥有这个数据框,以后可以使用 seaborn 之类的东西进行可视化等等,但我希望能够保存页面的链接,所以如果(比如说)我买便宜的东西,我可以去网站上看广告。
但是当我尝试将链接保存到数据框时,它似乎被切断了。
row = {'modelo':modelo,
'marca': marca,
'ano':ano,
'preco': preco,
'kilometragem':kilometragem,
'transmissao': transmissao,
'direcao':direcao,
'motor':motor,
'combustivel':combustivel,
'portas':portas,
'extras':extras,
'link':link}
print(row['link'])
olx= olx.append(to_df(row))
def to_df(data):
d = [[data['modelo'],
data['marca'],
data['ano'],
data['preco'],
data['kilometragem'],
data['transmissao'],
data['direcao'],
data['motor'],
data['combustivel'],
data['portas'],
data['extras'],
data['link']
]]
#series=pd.Series(d['Finish date'],d['Purpose'],d['Project name'])
df = pd.DataFrame(d,columns=['modelo', 'marca', 'ano', 'preco', 'kilometragem', 'transmissao','direcao','motor','combustivel','portas','extras','link'])
return df
如您所见,我围绕信息构建了一个数据框并将其附加到“主”数据框的末尾,问题是当我想检查数据框上的链接时会发生这种情况:
olx['link']
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
0 https://ce.olx.com.br/fortaleza-e-regiao/autos...
保存时的数据框似乎正在切割。 我检查了一下,在 to_df 函数中制作数据框时似乎是一个问题,因为在列表 d 上链接是完整的,但是当生成 de 数据框 df 时,链接列被剪切为所见。
它似乎像这样 olx['link'].values[0] 工作,但我真的需要 df 上的完整链接。
我还尝试将它保存在基础上的表中,有趣的是,无论我的链接表在“...”上停止多长时间,它也存在这种差异,但是当我滚动或复制时,它会显示整个链接。但我想如果我想在跟踪新添加或其他内容时检查重复项,那么这种差异将很难没有重复项或其他内容。
我可以做些什么来解决这个问题?
【问题讨论】:
标签: python pandas dataframe web-scraping