【问题标题】:HTML Escape in T-SQL SQL Server 2014T-SQL SQL Server 2014 中的 HTML 转义
【发布时间】:2018-10-09 14:31:20
【问题描述】:

我在 SQL Server 数据库中有一个列,它以下列方式存储文本块:

<HTML><HEAD><style type="text/css">BODY,TD,TH,BUTTON,INPUT,SELECT,TEXTAREA{FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: Arial,Helvetica;}BODY{MARGIN: 5px;}P,DIV,UL,OL,BLOCKQUOTE{MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px;}</style></HEAD><BODY> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px">Patient is a 84 year old female.  Patient's histpry includes the following:</p> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px"> </p></BODY></HTML>​

我想从上面这个特定的例子中带回来的是:

Patient is an 84 year old female. Patient's histpry includes the following:

老实说,我什至不知道从哪里开始,SQL Server 2014 中是否有任何 HTML 转义类型函数?我无权访问 CLI,我需要在我负责创建的存储过程中运行代码。

【问题讨论】:

  • 最好在客户端代码中处理。您不会为此找到好的 SQL 工具,即使您找到了,数据库服务器也不是该逻辑的更好位置。
  • 注意:样本的最后一个字符是隐形字符,可能会导致麻烦...
  • 确实如此,我也许可以将 unicode 替换掉,但您的解决方案相当优雅。

标签: sql-server tsql sql-server-2014


【解决方案1】:

如果对表值函数开放,请考虑以下事项。

厌倦了提取字符串(left、right、charindex、patindex、reverse 等),我修改了一个 split/parse 函数来接受两个不同的分隔符。在这种情况下></

此外,作为 TVF,如果您的数据在表格中,则很容易将其合并到 CROSS APPLY 中。

示例

Declare @S varchar(max)='<HTML><HEAD><style type="text/css">BODY,TD,TH,BUTTON,INPUT,SELECT,TEXTAREA{FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: Arial,Helvetica;}BODY{MARGIN: 5px;}P,DIV,UL,OL,BLOCKQUOTE{MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px;}</style></HEAD><BODY> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px">Patient is a&nbsp;84 year old female.&nbsp; Patient''s histpry includes the following:</p> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px">&nbsp;</p></BODY></HTML>​'

Select *
 From  [dbo].[tvf-Str-Extract](replace(@S,'&nbsp;',' '),'>','</')
 Where RetVal<>' '
   and RetVal not like 'BODY,%'

退货

RetSeq  RetPos  RetVal
2       284     Patient is a 84 year old female.  Patient's histpry includes the following:

注意: WHERE 是可选的,可能需要根据您的实际需要进行调整。只是为了好玩,在没有 WHERE 的情况下尝试一下。另外,在这个例子中,我们捕获了&amp;nbsp;,但如你所知,可能还有很多其他的,例如&amp;mdash;

感兴趣的功能

CREATE FUNCTION [dbo].[tvf-Str-Extract] (@String varchar(max),@Delimiter1 varchar(100),@Delimiter2 varchar(100))
Returns Table 
As
Return (  

with   cte1(N)   As (Select 1 From (Values(1),(1),(1),(1),(1),(1),(1),(1),(1),(1)) N(N)),
       cte2(N)   As (Select Top (IsNull(DataLength(@String),0)) Row_Number() over (Order By (Select NULL)) From (Select N=1 From cte1 N1,cte1 N2,cte1 N3,cte1 N4,cte1 N5,cte1 N6) A ),
       cte3(N)   As (Select 1 Union All Select t.N+DataLength(@Delimiter1) From cte2 t Where Substring(@String,t.N,DataLength(@Delimiter1)) = @Delimiter1),
       cte4(N,L) As (Select S.N,IsNull(NullIf(CharIndex(@Delimiter1,@String,s.N),0)-S.N,8000) From cte3 S)

Select RetSeq = Row_Number() over (Order By N)
      ,RetPos = N
      ,RetVal = left(RetVal,charindex(@Delimiter2,RetVal)-1) 
 From  (
        Select *,RetVal = Substring(@String, N, L) 
         From  cte4
       ) A
 Where charindex(@Delimiter2,RetVal)>1

)
/*
Max Length of String 1MM characters

Declare @String varchar(max) = 'Dear [[FirstName]] [[LastName]], ...'
Select * From [dbo].[tvf-Str-Extract] (@String,'[[',']]')
*/

【讨论】:

  • 我想你刚刚进入了“上帝模式”哈哈。但真的谢谢你,我会试试这个,看看我是否可以根据需要调整它。希望我的同行能找到更合适的方法在 Crystal 中完成这项工作。
  • @MCP_infiltrator “上帝模式”?...几乎没有...我们都站在巨人的肩膀上。谢谢你的笑容。
  • 我使用这个作为解决方案,因为列数据不能总是解析为 XML,非常感谢帮助
【解决方案2】:

对于 HTML,您永远无法确定转换为 XML 会成功。但是,在用简单的空白替换 &amp;nbsp; 之后,您可能会这样:

Declare @S varchar(max)='<HTML><HEAD><style type="text/css">BODY,TD,TH,BUTTON,INPUT,SELECT,TEXTAREA{FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: Arial,Helvetica;}BODY{MARGIN: 5px;}P,DIV,UL,OL,BLOCKQUOTE{MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px;}</style></HEAD><BODY> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px">Patient is a&nbsp;84 year old female.&nbsp; Patient''s histpry includes the following:</p> <p style="MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px">&nbsp;</p></BODY></HTML>​'

SELECT CAST(REPLACE(@S,'&nbsp;',' ') AS XML).value('(//p/text())[1]','nvarchar(max)');

结果

Patient is a 84 year old female.  Patient's histpry includes the following:

【讨论】:

  • 我的第一个想法也是如此,但现在我明白为什么它没有解析为 XML。 +1
  • @JohnCappelletti 我刚刚发现,它也可以定义您自己的实体。可以将'&lt;!DOCTYPE html [&lt;!ENTITY nbsp " "&gt;]&gt;' 放在 HTML 字符串前面,并将CONVERT() 与格式选项 2 一起使用。但这是有限的……无论如何,将 html 作为 xml 读取通常是错误的选择,并且可能随时中断...
  • 三个快速项目。 1)来自你的“我刚刚发现”对像我这样的人来说是鼓舞人心的。 2)现在必须探索你的小费。 3)解析HTML实际上是我创建函数的原因。我有一个客户,我们每天从 7 个站点解析 40,000 个页面。你友好的跟踪者......约翰
  • @JohnCappelletti ?
猜你喜欢
  • 2013-04-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-12-02
  • 1970-01-01
相关资源
最近更新 更多