【发布时间】:2019-02-01 20:36:45
【问题描述】:
目前我正在亚马逊网站上搜索一些数据。我遇到的问题是我无法真正从同一页面获取产品的所有数据。
我最终得到的是 2 个文件,它们的列标题相同,但列本身的数据不同。除了一些小事,我几乎从来没有用过 pandas,所以我在这方面的知识不是很好。
例如,在一个 .csv 文件中,产品的“code”“name”“url”“size”包含信息,但在另一个文件中包含“code”“price”“image1”“image2”等等。
如果文件 2 中的代码与文件 1 中的代码相同,最好的方法是什么,将文件 2 中的数据粘贴到文件 1(或只是创建一个新文件)。我可能会使用数以万计的不同产品代码,因此越高效越好。
下面我以链接两个文件为例
我会把上面的一些数据写成文本(没有使用所有的标题,因为它看起来不太好)
文件 1
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
- B072L7PVNQ - - price1
- B01D9FKME6 - - price2
- B077Z5ST3P - - price3
- B00KLMFUKC - - price4
文件 2
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
Clothing B072L7PVNQ 86K5PBAH name1 -
Clothing B01D9FKME6 86K5PBAH name2 -
Clothing B077Z5ST3P 86K5PBAH name3 -
Clothing B00KLMFUKC 86K5PBAH name4 -
对于上传的文件和文本,代码的顺序相同。值得注意的是,情况可能并非如此。
我还想补充一点,如果产品代码出现在file1中,该代码也会出现在file2中,但不是相反。
我尝试从 file1 数据创建一个新列并将该列粘贴到 file2 数据帧中,然后保存该文件。但是后来我发现代码可能不正确,所以这种方式不起作用。
编辑:我不太清楚我想要什么,我很抱歉。我试图得到的结果是这样的
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
Clothing B072L7PVNQ 86K5PBAH name1 price1
Clothing B01D9FKME6 86K5PBAH name2 price2
Clothing B077Z5ST3P 86K5PBAH name3 price3
Clothing B00KLMFUKC 86K5PBAH name4 price4
【问题讨论】:
-
尝试使用:
pd.merge(df1, df2, on='ColumnName')
标签: python python-3.x pandas