【发布时间】:2016-07-05 16:05:45
【问题描述】:
我正在努力解决这个问题。 提取物完美无缺,但结果是:
" div class= " ppl_product_header "" " H1 " 内存 4 Gb Dimm 2133 Mts CL15"/h1""/div"
但我只需要 "h1 " 和 "" h1 "" 之间的内容。即仅文本。
from bs4 import BeautifulSoup
import urllib2
import time
y=0
url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx"
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
x=soup.find_all('div', class_='ppl_product_header')
print x
print "good bye"
【问题讨论】:
-
使用
print x.text