【发布时间】:2014-07-06 19:05:15
【问题描述】:
我把这个简单的项目过于复杂了,但我想了解更多关于 Python 的知识,所以我想到了这个简单的应用程序,它涉及根据谷歌放映时间上列出的电影来抓取所有当前电影的电影时间。
位置无关紧要,因为它会调出所有当前电影。我有代码来废弃<span class=info></span> 标签中的所有数据,但它显然会提取电影的长度以及大量其他 html 数据。我只想要电影时间。
我假设只提取电影时间,我需要某种正则表达式。
这是一个小sn-p,它是文本信息的哪一部分
<span class=info>‎2hr 3min‎‎ - Rated PG-13
我只需要小时和分钟,别无其他。从这行文本中解析这些数据的最佳方法是什么?
【问题讨论】:
-
当我说电影时间时,我只是指电影的实际长度,而不是相关的电影放映时间。
标签: python regex beautifulsoup screen-scraping