pandas 数据帧上的 url 有问题（显示的数据不是存储的数据）答案

【问题标题】：Having a problem with urls on pandas dataframes (data shown is not data stored)pandas 数据帧上的 url 有问题（显示的数据不是存储的数据）
【发布时间】：2021-02-21 13:07:38
【问题描述】：

我在尝试构建保存到数据框的刮刀时遇到问题，以便我可以轻松地可视化我刮取的内容。

所以我正在为当地汽车价格抓取 OLX（市场网站）（因为汽车有很多功能，这使得这种东西很酷）所以我可以拥有这个数据框，以后可以使用 seaborn 之类的东西进行可视化等等，但我希望能够保存页面的链接，所以如果（比如说）我买便宜的东西，我可以去网站上看广告。

但是当我尝试将链接保存到数据框时，它似乎被切断了。

 row = {'modelo':modelo,
   'marca': marca,
   'ano':ano,
   'preco': preco,
   'kilometragem':kilometragem,
   'transmissao': transmissao,
   'direcao':direcao,
   'motor':motor,
   'combustivel':combustivel,
   'portas':portas,
   'extras':extras,
   'link':link}
print(row['link'])
olx= olx.append(to_df(row))


def to_df(data):
    d = [[data['modelo'],
          data['marca'],
         data['ano'],
         data['preco'],
         data['kilometragem'],
         data['transmissao'],
         data['direcao'],
         data['motor'],
         data['combustivel'],
         data['portas'],
         data['extras'],
         data['link']
         ]]
    #series=pd.Series(d['Finish date'],d['Purpose'],d['Project name'])
    df = pd.DataFrame(d,columns=['modelo', 'marca', 'ano', 'preco', 'kilometragem', 'transmissao','direcao','motor','combustivel','portas','extras','link'])

    return df

如您所见，我围绕信息构建了一个数据框并将其附加到“主”数据框的末尾，问题是当我想检查数据框上的链接时会发生这种情况：

olx['link']

0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
                           ...                        
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...

保存时的数据框似乎正在切割。我检查了一下，在 to_df 函数中制作数据框时似乎是一个问题，因为在列表 d 上链接是完整的，但是当生成 de 数据框 df 时，链接列被剪切为所见。

它似乎像这样 olx['link'].values[0] 工作，但我真的需要 df 上的完整链接。

我还尝试将它保存在基础上的表中，有趣的是，无论我的链接表在“...”上停止多长时间，它也存在这种差异，但是当我滚动或复制时，它会显示整个链接。但我想如果我想在跟踪新添加或其他内容时检查重复项，那么这种差异将很难没有重复项或其他内容。

我可以做些什么来解决这个问题？

【问题讨论】：

标签： python pandas dataframe web-scraping

【解决方案1】：

你可以试试下面这行

pd.set_option('display.max_colwidth', None)

编辑：抱歉“-1”可能不再受支持，所以最好使用“无”

【讨论】：