【问题标题】:Remove MS Word "HTML" using PHP [duplicate]使用 PHP 删除 MS Word“HTML”[重复]
【发布时间】:2012-07-09 03:48:54
【问题描述】:

可能重复:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft input

我允许客户在富文本编辑器中输入注释,并且最近才升级到 ckEditor 3x,它默认去除 MS 单词类、样式和 cmets(当用户粘贴到编辑器对象时)。所以继续前进,我已经准备好了。

我最近需要清理 5 年的笔记,其中一些笔记嵌入了 MS Word 生成的 HTML。我需要遍历这段文本并清理它。

我不需要删除所有 span 标签,只需要删除那些标识为由 Mi​​crosoft 编写的标签。

我尝试过使用 HTMLCleaner,但它并没有删除 MS 生成的 HTML。 http://word2cleanhtml.com 完全符合我的要求,但开发人员目前不提供 API 供公众使用(截至 2012 年 7 月 9 日)。

在过去的几周里,我断断续续地寻找这样的课程,但运气不佳。你们中有人找到了想要分享的有用课程吗?

【问题讨论】:

  • 澄清一下,我需要一个可以嵌入到现有应用程序中的服务器端类。 mario 提到的 SO 问题/答案中有一些很棒的工具,但是我发现它们大部分是为一次性转换而设计的——或者使用 curl 发布到他们的网站。 PHI 无法做到这一点。
  • 马里奥,你的网址去哪儿了?它们很有用,也是我关闭的理由的一部分。它们也应该对 OP 使用回顾性脚本进行 HTML 清理很有用。
  • 我希望这个问题可以保留,因为下面 maxhud 的回答将我的问题解决给了一个 T。htmlpurifier 是一个类,而不是用户浏览和上传到的网站。
  • 我注意到我的问题顶部添加了两个新链接。第一个没有完全回答我在寻找什么。然而,第二个在我最初的搜索中确实但没有出现(道歉)。接受的答案与下面的 maxhud 相同。
  • 嗨 a_coder;是的,如果一个问题像这样关闭,它应该始终可用 - 我认为如果问题由于达到必要的五次关闭投票而自动关闭,这总是会发生。手动删除时,有些模组会完全删除问题,但我认为在这些普通情况下不会发生这种情况。

标签: php html ms-word htmlcleaner


【解决方案1】:

http://htmlpurifier.org/

这会做你想做的。

【讨论】:

  • 现在试试 - 谢谢。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-10-28
  • 2021-03-04
  • 1970-01-01
  • 2018-06-25
  • 2018-12-02
相关资源
最近更新 更多