【发布时间】:2013-04-13 07:03:02
【问题描述】:
我有一个经过正则表达式的输出行,如下所示:
<a href="google.com">"test link"</a><br>
如何将不带引号的 google.com 捕获到变量中?鉴于 url 可能包含许多“/”,例如(以下乱码)
http://www.google.com/search/something/lulz/here2;i=!mfo1iu489fn1o2jlk21m4098mdoi
编辑:在上述情况下,我想要整个 url 字符串,而不仅仅是 www.google.com。
注意:不希望加载第 3 方库等来执行此操作。
【问题讨论】:
-
我接受不带 cmets 的反对票作为拥抱。
-
我不是反对者,但我猜是因为这是 另一个 请求,需要帮助使用正则表达式解析 html。查看stackoverflow的most upvoted answer
-
当我要求任何本机 bash 命令时,您的假设将是错误的。唯一提到正则表达式的事实是,我已经使用正则表达式从 html 中剥离了 href 行......但我并没有要求有人使用正则表达式来解析我需要的字段数据。我已经知道这是不可能的,因为没有可用于正则表达式的“非捕获组”。 (不是攻击你,只是解释以防万一是原因)
-
grep 和 cut 不是本机 bash 命令。有关完整列表,请参阅手册页的
SHELL BUILTIN COMMANDS部分。 -
@Jordanm,对不起,但这个问题是关于解析 __SOME_KNOWN_CHARS="wantedchars"OTHER_KNOWN_CHARSrandom_charsEND_CHARS。所以,这与解析 HTML 无关……这是一种特殊情况,没有成熟的 html 解析器也可以轻松完成……对吧?