【发布时间】:2014-12-31 06:00:56
【问题描述】:
众所周知,Regex 模式会在您第一次看到它们时让您胃口大开(或者第 10 次,因为您从未真正了解过它。Quilty。)。我目前正在阅读它,但由于我的截止日期很紧,我会在这里查看是否可以同时获得更快更好的答案/解释。
我有一些论坛帖子的网址,我想浏览 html 并找到该帖子的最后一页。
所以说我有以下网址之一来识别有问题的线程:
- https://www.somesite.com/forum/thread-93912*(绝对网址 线程)
- /forum/thread-93912(相对于主题的 url)
并且我想获取在 html 文档中的上述任何“部分”匹配之后直接出现(下一个路径)的所有值(整数)。
因此,从以下任何 位于 html 文档中的任何位置的 hrefs(文档表示为单个字符串):
- https://www.somesite.com/forum/thread-93912/34
- https://www.somesite.com/forum/thread-93912/34/morestuffhere/whatevs
- /forum/thread-93912/34
- /forum/thread-93912/34/somethingheretoo
我想提取数字 34(只有 34),所以我可以将其解析为 int。
编辑
好吧,为了更简单:
假设我拥有htmlString 中的所有html,并且在这个字符串中我想找到出现在我的输入字符串/forum/thread-93912 之后的所有 个数字x。
这些都出现在htmlString中,我要提取数字:
- thread-93912/34
- thread-93912/14
- thread-93912/84
- thread-93912/64
- thread-93912/4
【问题讨论】: