如何在降价中匹配纯文本 URL？答案

【问题标题】：How to match plain text URL in a markdown?如何在降价中匹配纯文本 URL？
【发布时间】：2013-12-18 09:00:39
【问题描述】：

我目前正在尝试匹配降价文本中的所有纯文本链接。

markdown 文本示例：

Dude, look at this url http://www.google.com .. it's a great search engine

我想把它转换成

Dude, look at this url <http://www.google.com> .. it's a great search engine

简而言之，处理url 应该变成<url>，但处理现有的<url> 不应该变成<<url>>。另外，markdown 中的链接可以是(url) 的形式，所以我们也必须避免匹配正常的括号。

所以我在java中匹配纯文本url的工作正则表达式是： "[^(\\<|\\(](https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|][^(\\>|\\)]",

使用[^(\\<|\\(] 和[^(\\>|\\)] 以避免匹配换行括号。

但这里有一个问题，我也不想要匹配这种网址：

[1]: http://slashdot.org

所以，如果markdown文本是

Dude, look at this url http://www.google.com .. it's a great search engine
[1]: http://slashdot.org

我只想匹配http://www.google.com，而不是http://slashdot.org。

我想知道满足这个标准的模式是什么？

【问题讨论】：

【解决方案1】：

您在这里遇到的是解析问题。正则表达式很好，但只是在这里使用正则表达式会让它变得一团糟（假设你实现了它）。解决此问题后，您可能会发现自己面临其他问题，例如您不想替换的代码中的 URL（在 ` 之间或以制表符或四个空格开头的行中）。

解决方案是分成几行，然后

这就是我在this small pseudo-markdown parser 中使用的逻辑，您可以测试here。

请注意，使用现有的经过验证的降价解析器总是有解决方案，其中有很多。

【讨论】：