【发布时间】:2017-12-01 18:02:44
【问题描述】:
我有两个文件。两个文件的行数相等(每个 1000 行)。我必须比较这些文件并在第三个文件中写入差异。每个并发行可能有不同数量的单词。
我在 Ubuntu 中尝试过 diff 命令。但它既不适合乌尔都语,也不提供所需的结果。
我已经尝试并更新了this java 代码的接受答案。
我不在这里发布代码问题会变得冗长。
示例输入文件一:
因此,说他是一个从不造成痛苦的人,这几乎是一个绅士的定义
这个描述既精致又准确,他主要只是在
示例输入文件二:
因此,最能定义绅士的是,他是一个从不感染痛苦的人
这个描述既精致又准确,他主要只是在
要求输出:
几乎 => 大多数
说 => 躺着
造成 => 感染
精炼 => 精炼
作为 =>
占用=占用
任何可以为我解决问题的脚本/代码/软件或命令将不胜感激。我知道 Java,也有 Ubuntu 16.10 和 Windows 10
如果是 java 代码,那么我知道文件处理并编写了文件编写代码。
注意:最初的文件是乌尔都语。所以它的Unicode。我没有发布乌尔都语,因为世界上大多数人都不理解它。我正在比较语音识别结果。文件一为输入文件,文件二为识别后的结果。
【问题讨论】:
-
这出奇的复杂,如果每一行的长度都相同,并且单词匹配,那将是微不足道的。没有一些话……没那么容易。如果有
a b c d和a e d作为行,它会显示b c => d,还是b => e, c =>? -
diffchecker.com/diff 这个网站就是这样工作的。虽然它不知道单词是否缺席。逻辑可能类似于词库之后和之前。
标签: java string ubuntu file-handling