【发布时间】:2014-06-19 12:50:35
【问题描述】:
我写了一个脚本,发布在下面,它基本上会进入纯文本字典网站并搜索输入的单词并检索定义。唯一的问题是它也返回了结束段落标签,我已经搞砸了很多年了。
#!/usr/bin/python
import urllib2
import re
import sys
word = 'Xylophone'
page = urllib2.urlopen('http://www.mso.anu.edu.au/~ralph/OPTED/v003/wb1913_'+word[0].lower()+'.html')
html = page.read()
match = re.search(r'<P><B>'+word+'</B>.............(.*)', html)
if match:
print match.group(1)
else: print 'not found'
这将返回带有标签的定义。这里忽略标签的正确正则表达式语法是什么?
【问题讨论】:
标签: python html regex web-scraping html-parsing