【问题标题】:Trimming whitespace from HTML content?从 HTML 内容中修剪空格?
【发布时间】:2010-12-05 18:02:01
【问题描述】:

我有一个带有自定义富文本编辑器控件(实际上是 FCKEditor)的 CRUD 维护屏幕,程序从控件中提取格式化文本作为 HTML 保存到数据库。但是,我们的部分标准是在保存之前需要从内容中去除前导和尾随空格,因此我必须删除无关的  和
等从 HTML 字符串的开头和结尾开始。

我可以选择在客户端(使用 Javascript)或在服务器端(使用 Java)执行此操作是否有简单的方法来执行此操作,使用正则表达式或其他什么?我不确定它需要有多复杂,我需要能够删除以下内容:

<p><br /> &nbsp;</p>

如果中间有任何有意义的文本,请保留它。 (上面的sn-p是测试人员保存的实际HTML数据)

【问题讨论】:

    标签: java javascript html html-parsing


    【解决方案1】:
    /<p>(?:<br\s*\/>|&[#\w]{2,6};|[\s\n\r])*?<\/p>/g
    

    这应该匹配所有不包含任何“有意义的文本”的段落。

    不过最好在服务器端进行。

    【讨论】:

    • 你不应该认为某些实体是有意义的吗?即 © ?
    • 不只是 © ...我会说大多数实体引用都可以归类为“有意义的文本”,但我认为 OP 可以解决这个问题。如果需要,只需删除正则表达式的中间部分 ("&[#\w]{2,6};|")...
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多