【发布时间】:2013-10-02 12:02:51
【问题描述】:
我必须警告你我是一个初学者。我有一个文本文件,其中一些行包含编码错误。通过“错误”,这是我在 linux 控制台中解析文件时得到的结果(问号而不是字符):
我想删除显示那些“问号”的每一行。我试图 grep -v 有问题的字符,但它不起作用。该文件本身是 UTF8,我猜有些行来自以另一种格式编码的文本。我知道我可以找到一种方法来正确地重新转换它们,但我现在只想让它们消失。
请问您有什么想法吗?
PS:有些行包含显示良好的变音符号。 “字符串”命令似乎删除了太多“好”行。
【问题讨论】:
-
你试过
dos2unix吗?以xinotes.org/notes/note/1377 为例 -
它说它是一个二进制文件,不能处理它。
-
嗯,我觉得我发的太快了。
dos2unix解决了新行问题,但我认为它并没有解决这些编码问题。让我们等待有更多知识的人回答:) -
好的,谢谢你看看 fedorqui !