【发布时间】:2012-04-17 10:37:02
【问题描述】:
我正在从一些 html 中删除所有样式属性。我可以使用正则表达式
/style=("[^"]"|'[^']')/
但我想知道这是否效率低下(由于负匹配)。我也知道它容易受到可能包含引号的样式属性(例如背景图像)的影响。
是否有一个正则表达式我可以用来匹配有效的样式字符串,或者像用正则表达式解析 html 一样,这对于一个正则表达式来说是否太难执行?
*edit 这是(我认为)我正在抓取的 html 中最棘手的样式字符串
style="FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: 'Verdana','sans-serif'; mso-fareast-font-family: 'Times New Roman'"
【问题讨论】:
-
@Sibster 我知道这个问题和答案,但我的问题比这要窄得多
-
你可能想看看我更新的答案。
-
@wheresrhys 你也可以有不带引号的属性:
style=font-weight:bold是有效的。 -
@Boldewyn 如果由我来决定,根本不会有任何样式属性......但不幸的是,我不得不从第三方抓取 html,因此无法控制是否或者没有引号
标签: javascript css regex styles