【发布时间】:2013-02-24 04:36:01
【问题描述】:
我有未知数量的文件散布着垃圾数据,我想动态删除所述垃圾数据,可能使用正则表达式。
它在浏览器的 HTML 文件中通常看起来像这样:
这是文件的开头,��
在文件中,它将如下所示:
这是文件的开头,xE2xA0
我尝试使用正则表达式编辑器将其删除,但无济于事,它根本找不到它。如何删除这些垃圾数据?同样,有些文件有各种 HTML 标记。
感谢您的帮助。
【问题讨论】:
-
这听起来像是代码页问题。您可能正在使用错误的编码查看数据。例如,如果它是用 ISO 8859 编码的,而你用 Unicode 来查看它。干杯
-
这不是垃圾数据,您使用了错误的编码来读取文件。你想做什么?我感觉你有一个XY Problem。
-
这是字符集问题。您的计算机无法识别这些字符,因此将它们显示为 ? xE2 是控制字符的表示,您不能使用正则表达式轻松删除它。 facebook.stackoverflow.com/questions/14946109/…
-
感谢大家的贡献。我同意,这是一个 XY 问题。不幸的是,我很难确定字符编码集。 Notepad++ 将其编码为 UTF-8。我把它改成了ascii,问号变成了一个上面有一个胡萝卜符号的a。就删除它而言,引用的 stackoverflow 文章有很大帮助。但如果是 XY 问题,那么它在技术上并不能解决问题。尽管如此,如果我无法确定字符集,我还有什么选择?
标签: php html regex perl garbage