【发布时间】:2015-09-22 20:46:24
【问题描述】:
我在运行 python 脚本时遇到问题,它会下载公司名称、地址、位置地址和 WEB 地址等公司业务目录。
但是当这个脚本获取公司的网站名称时,例如www.example.com,它只是获取网站名称的 HTML 代码,而不是获取网站名称,它还将 HTML 代码存储到当前网站的 MySQL 服务器中。
我使用来自 BeautifulSoup、lxml、html、hashlib、urllib2 的以下 Python 库,并将网站名称 HTML 代码存储到 MYSQL 服务器中,例如
<input><tr><td>www.example.com</td></tr></input>
我想删除这个 html 标记并将公司网址(如 www.example.com)存储到 MySQL 服务器中
我的代码在这里:
for hit in soup2.findAll(attrs={'id' : 'webSite_0'}):
web = str(hit).replace('<input type="hidden" value="', '')
web = web.replace('" id="webSite_0" />', '')
if web == "":
flog.write("\nWebsite extraction... Failed")
print "None"
else:
flog.write("\nWebsite extraction... OK")
print web
companyObj.setWeb(web)
关于如何解决此问题的任何解决方案或任何建议。
【问题讨论】:
标签: html mysql python-2.7 beautifulsoup lxml