【发布时间】:2018-06-04 16:52:16
【问题描述】:
我想做一个简单的 python 脚本来自动化从 IP 摄像机的 SD 卡中提取 .mov 文件的过程。 IP 摄像机型号支持返回包含 .mov 文件信息的 HTML 的 http 请求。到目前为止我的python脚本..
from bs4 import BeautifulSoup
import requests
page = requests.get("http://192.168.1.99/form/getStorageFileList?type=3")
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())
输出:
NAME2041=Record_continiously/2018-06-02/8/MP_2018-06-03_00-33-15_60.mov
我只想返回 MOV 文件。所以删除:
"NAME2041=Record_continiously/2018-06-02/8/"
我是使用 python 解析 HTML 的新手,所以我对功能有点困惑。
返回的 HTML 是否被视为字符串?如果是这样,我知道它将是不可变的,我将不得不创建一个新字符串,而不是“剥离”先前存在的字符串。
我试过了:
page.replace("NAME2041=Record_continiously/2018-06-02/8/","")
我收到一个属性错误。有谁知道任何可以实现这一目标的方法?
这是我正在使用的 HTML 示例...
<html>
<head></head>
<body>
000 Success NUM=2039 NAME0=Record_Continuously/2018-06-04/10/MP_2018-06-04_12-17-38_60.mov SIZE0=15736218
NAME1=Record_Continuously/2018-06-04/10/MP_2018-06-04_12-16-37_60.mov SIZE1=15683077
NAME2=Record_Continuously/2018-06-04/10/MP_2018-06-04_12-15-36_60.mov SIZE2=15676882
NAME3=Record_Continuously/2018-06-04/10/MP_2018-06-04_12-14-35_60.mov SIZE3=15731539
</body>
</html>
【问题讨论】:
标签: python html parsing web-scraping