【发布时间】:2011-08-30 02:53:58
【问题描述】:
python 原始字符串和字符串文字如何工作?我正在尝试制作一个网络爬虫来从网站下载 pdf。当我搜索它工作的字符串时,但是当我尝试在 python 中实现它时,我总是得到 None 作为我的答案
import urllib
import re
url="" //insert url here
sock=urllib.urlopen(url)
htmlSource=sock.read();
sock.close();
m=re.match(r"<a href.*?pdf[^>]*?", raw(htmlSource))
print m
$ python temp.py
None
原始函数来自这里:http://code.activestate.com/recipes/65211-convert-a-string-into-a-raw-string/
也就是说,我怎样才能完成这个程序,以便我可以打印出所有的比赛,然后下载 pdf?
谢谢!
【问题讨论】:
-
您使用正则表达式而不是 a real HTML parser 的任何原因?
-
这对我来说也只是一个正则表达式练习
-
这个问题不是关于“Python 原始文字”的,是吗?
-
标题应该是原始字符串,我猜。我不太确定,因为如果我将代码中的“raw(htmlSource)”替换为实际源代码,它就可以正常工作。但现在它返回 None
-
您可以使用
'%r' % htmlSource而不是raw来获取 Python 原始字符串。你有理由解析原始字符串而不是真正的字符串吗?
标签: python