【发布时间】:2012-07-09 03:48:54
【问题描述】:
可能重复:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft input
我允许客户在富文本编辑器中输入注释,并且最近才升级到 ckEditor 3x,它默认去除 MS 单词类、样式和 cmets(当用户粘贴到编辑器对象时)。所以继续前进,我已经准备好了。
我最近需要清理 5 年的笔记,其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。
我不需要删除所有 span 标签,只需要删除那些标识为由 Microsoft 编写的标签。
我尝试过使用 HTMLCleaner,但它并没有删除 MS 生成的 HTML。 http://word2cleanhtml.com 完全符合我的要求,但开发人员目前不提供 API 供公众使用(截至 2012 年 7 月 9 日)。
在过去的几周里,我断断续续地寻找这样的课程,但运气不佳。你们中有人找到了想要分享的有用课程吗?
【问题讨论】:
-
澄清一下,我需要一个可以嵌入到现有应用程序中的服务器端类。 mario 提到的 SO 问题/答案中有一些很棒的工具,但是我发现它们大部分是为一次性转换而设计的——或者使用 curl 发布到他们的网站。 PHI 无法做到这一点。
-
马里奥,你的网址去哪儿了?它们很有用,也是我关闭的理由的一部分。它们也应该对 OP 使用回顾性脚本进行 HTML 清理很有用。
-
我希望这个问题可以保留,因为下面 maxhud 的回答将我的问题解决给了一个 T。htmlpurifier 是一个类,而不是用户浏览和上传到的网站。
-
我注意到我的问题顶部添加了两个新链接。第一个没有完全回答我在寻找什么。然而,第二个在我最初的搜索中确实但没有出现(道歉)。接受的答案与下面的 maxhud 相同。
-
嗨 a_coder;是的,如果一个问题像这样关闭,它应该始终可用 - 我认为如果问题由于达到必要的五次关闭投票而自动关闭,这总是会发生。手动删除时,有些模组会完全删除问题,但我认为在这些普通情况下不会发生这种情况。
标签: php html ms-word htmlcleaner