【发布时间】:2014-03-28 08:40:16
【问题描述】:
我正在通过 python 从网站上抓取一些数据。
我想做两件事
-
我想跳过每个网页抓取结果中常见的前两个单词“Dubai”和“UAE”。
-
我想将最后两个单词保存在两个不同的变量中,带条不带多余的空格。
try: area= soup.find('div', 'location') area_result= str(area.get_text().strip().encode("utf-8")) print "Area: ",area_result except StandardError as e: area_result="Error was {0}".format(e) print area_result
area_result:包含以下数据:
'UAE \xe2\x80\xaa>\xe2\x80\xaa\n \n Dubai \xe2\x80\xaa>\xe2\x80\xaa\n \n Business Bay \xe2\x80\xaa>\xe2\x80\xaa\n \n Executive Towers \n \n\n\n \n\n\n\t \n\t \n\t \n\t\n\n\n \n ;\n \n \n \n 1.4 km from Burj Khalifa Tower'
我希望将上述结果显示为(注意Executive Towers 和1.4 km.. 之间的>
Executive Towers > 1.4 km from Burj Khalifa Tower
【问题讨论】:
-
您能否以原始格式而不是屏幕截图向我们展示字符串?像这样:
UAE >\n Dubai >\n ...?还有strip()是为了去掉字符串开头和结尾的东西, -
查看修改后的版本
-
您的浏览器也不会显示多余的空格。
-
@user3265370 你还没有给我们 STRING,你给我们的是我们不感兴趣的屏幕截图.. 你能复制并粘贴字符串吗按原样而不是发布屏幕截图,因为我对为什么有多个
\n和 ` ` 遍布您的数据以及原始数据的样子很感兴趣,我也想复制并粘贴它数据到我的环境中,以便我可以使用它。我无法从屏幕截图中复制字符串。 注意: 最后一个屏幕截图与第一个屏幕截图不匹配,第一个屏幕截图中没有Dubai Festival City;,即使这并不重要。一致性! -
请查看修改后的版本
标签: python web-scraping strip