【发布时间】:2015-11-21 14:03:43
【问题描述】:
我想从网站获取一些数据。
我的程序目前使用 urllib.request 来读取整个 html 文档。 因为网站的变化,每次运行程序时HTML文件的数据都不一样。
一些数据保持不变——的起点和终点。
我想告诉python子字符串的开始和结束应该是什么。
我已经用谷歌搜索了这个,但只找到了一种需要您提前知道子字符串才能查找它的方法 - 例如:
str1.find(str2)
这是我的程序的一个 sn-p:
import urllib.request
def get_html():
with urllib.request.urlopen("http://website.com/dynamic_page") as response:
html = response.read()
return html
print(get_html())
这会打印一个长字符串,但我只需要获取其中的一部分,否则我的其他函数会在整个文档中查找字符串,而不仅仅是一小部分:
def search_custom(string):
html = get_html()
string_var = string
string_var = string_var.encode('utf-8')
string_count = html.count(string_var)
print(string_count)
return string_count
【问题讨论】:
-
你到底想要什么?删除你的html字符串的
<script>..</script>?
标签: python string python-3.x substring