【问题标题】:Having a problem with urls on pandas dataframes (data shown is not data stored)pandas 数据帧上的 url 有问题(显示的数据不是存储的数据)
【发布时间】:2021-02-21 13:07:38
【问题描述】:

我在尝试构建保存到数据框的刮刀时遇到问题,以便我可以轻松地可视化我刮取的内容。

所以我正在为当地汽车价格抓取 OLX(市场网站)(因为汽车有很多功能,这使得这种东西很酷)所以我可以拥有这个数据框,以后可以使用 seaborn 之类的东西进行可视化等等,但我希望能够保存页面的链接,所以如果(比如说)我买便宜的东西,我可以去网站上看广告。

但是当我尝试将链接保存到数据框时,它似乎被切断了。

 row = {'modelo':modelo,
   'marca': marca,
   'ano':ano,
   'preco': preco,
   'kilometragem':kilometragem,
   'transmissao': transmissao,
   'direcao':direcao,
   'motor':motor,
   'combustivel':combustivel,
   'portas':portas,
   'extras':extras,
   'link':link}
print(row['link'])
olx= olx.append(to_df(row))


def to_df(data):
    d = [[data['modelo'],
          data['marca'],
         data['ano'],
         data['preco'],
         data['kilometragem'],
         data['transmissao'],
         data['direcao'],
         data['motor'],
         data['combustivel'],
         data['portas'],
         data['extras'],
         data['link']
         ]]
    #series=pd.Series(d['Finish date'],d['Purpose'],d['Project name'])
    df = pd.DataFrame(d,columns=['modelo', 'marca', 'ano', 'preco', 'kilometragem', 'transmissao','direcao','motor','combustivel','portas','extras','link'])

    return df

如您所见,我围绕信息构建了一个数据框并将其附加到“主”数据框的末尾,问题是当我想检查数据框上的链接时会发生这种情况:

olx['link']

0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
                           ...                        
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...
0    https://ce.olx.com.br/fortaleza-e-regiao/autos...

保存时的数据框似乎正在切割。 我检查了一下,在 to_df 函数中制作数据框时似乎是一个问题,因为在列表 d 上链接是完整的,但是当生成 de 数据框 df 时,链接列被剪切为所见。

它似乎像这样 olx['link'].values[0] 工作,但我真的需要 df 上的完整链接。

我还尝试将它保存在基础上的表中,有趣的是,无论我的链接表在“...”上停止多长时间,它也存在这种差异,但是当我滚动或复制时,它会显示整个链接。但我想如果我想在跟踪新添加或其他内容时检查重复项,那么这种差异将很难没有重复项或其他内容。

我可以做些什么来解决这个问题?

【问题讨论】:

    标签: python pandas dataframe web-scraping


    【解决方案1】:

    你可以试试下面这行

    pd.set_option('display.max_colwidth', None)
    

    编辑:抱歉“-1”可能不再受支持,所以最好使用“无”

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-01-31
      • 2018-05-18
      • 2016-01-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多