【发布时间】:2016-12-26 13:10:43
【问题描述】:
我想从一个句子中提取主题标签。例如- 如果句子是
#test1.#test2 #test3 www.google.com/#test4 www.google.com/hello#test5
主题标签是
#test1
#test2
#test3
但不是 #test4 或 #test5,因为它们是 URL 的一部分
我试图为此制作正则表达式。到现在为止我有
/(^|\s)#(\w+)\b/g
https://regex101.com/r/WPeSdE/1
这会处理#test1 和#test3,但无法获得#test2。
请帮忙。
【问题讨论】:
-
我猜你想要this
-
@PavneetSingh 但它可以是单词之前的句号、逗号或任何可以出现单词的符号,即使符号后面没有空格
-
#(\w+) 工作正常,不?
-
很难区分 #test5 是 url 的一部分,而 #test2 不是。您要么需要一个 really really 复杂的正则表达式,要么您编写更多代码来首先将文本标记为普通文本和 url,然后在普通文本中找到主题标签,特别是如果您需要提取/替换/突出显示网址和主题标签。
标签: javascript regex hashtag