【发布时间】:2014-03-25 03:56:42
【问题描述】:
我编写了一个代码,通过使用 mechanize 提供搜索词来从网站中提取信息。 结果有html标签和其他细节以及文本。我只需要提取文本。帮助我修改代码
import mechanize
br=mechanize.Browser()
br.set_handle_robots( False )
br.addheaders = [('User-agent', 'Firefox')]
r=br.open("http://www.drugs.com/search-wildcard-phonetic.html")
br.select_form(nr=0)
br.form['searchterm']='panadol'
br.submit()
print br.response().read()
【问题讨论】:
-
您是否在某个标签内寻找某些特定文本?
-
@SpencerGrantDoak 是的
-
我强烈建议只使用正则表达式。我没有使用机械化,但我假设
br.response().read()返回一个字符串。如果是这样,您可以导入正则表达式并获取 html 标签内的数据。
标签: python web-scraping mechanize