【发布时间】:2020-02-28 08:52:51
【问题描述】:
我正在尝试对网站进行 webscraep 并创建名称和图像链接的数据框。 但是在我解析名称时存在一些问题。
我的数据框是这样的;
color gender model1 model2 extra_col1 extra_col2 extra_col3
black male A24 B2
red woman A1 B3
19sf black male A22 B1
deep 1909sf 2202 blue woman A1 B22
前两行是正确的。我想遍历这 7 列并正确找到颜色、性别和模型并创建新列;
下表是我想要的;
color gender model1 model2
black male A24 B2
red woman A1 B3
black male A22 B1
blue woman A1 B22
我有颜色、性别、模型1、模型2的唯一值列表 我需要比较特定列中的每个元素并与列表匹配,并在颜色列、性别列等中写入正确的元素。
谢谢。
【问题讨论】:
-
您能否在将数据放入数据框之前添加一个 sn-p 来说明您的数据的外观?
-
在我看来(根据您的示例)您希望始终以最后 4 列结束?我说的对吗?
-
您正在尝试在输入数据框后修复数据,此时最好修复您输入数据框的方式。确实可以修复数据框本身,但您将不得不使用更糟糕的 pandas 技术,而修复原始数据肯定会更好。
-
@jvdV 是的,你是对的。
-
@Serge Ballesta 它是一个 html 对象,因此通常应该有 4 个元素,如帖子最后一个表中的元素。我想最好一劳永逸地执行该操作,否则在我抓取时我需要检查我不喜欢的 for 循环中的每个元素
标签: python string pandas for-loop