【问题标题】:Returning lines that differ between two files (Python)返回两个文件之间不同的行(Python)
【发布时间】:2013-07-23 00:37:27
【问题描述】:

我有两个文件,每个文件都有数万行,output1.txt 和 output2.txt。我想遍历这两个文件并返回两者之间不同的行(和内容)。它们大多相同,这就是为什么我找不到差异(filecmp.cmp 返回 false)。

【问题讨论】:

  • 您是要比较每个文件的ith 行,还是要查找每个文件中不存在于另一个文件中的行?
  • 如果你只这样做一两次,使用 GitHub 可能会更容易,因为它有漂亮闪亮的界面
  • 您有想要的输出示例吗?类似于diff?
  • 假设 output1.txt 是 10,000 行,output2.txt 是 10,001 行。它们完全相同,只是在中途插入了一行。您如何设想这将显示给用户?
  • 如果您可以使用 linux/unix,diff 可能会有所帮助。 diff output1.txt output2.txt

标签: python file lines


【解决方案1】:

7.4。 difflib — 计算增量的助手

2.1 版中的新功能。

此模块提供用于比较序列的类和函数。例如,它可以用于比较文件,并且可以生成各种格式的差异信息,包括 HTML 和上下文以及统一差异。如需比较目录和文件,另请参阅 filecmp 模块。

【讨论】:

  • 我永远看不懂官方文档。是否有一个易于理解的示例可以满足我的要求?
  • 文档页面下方有一些示例。阅读它们,更重要的是,在 Python 解释器中尝试一下!还有 Python Module Of The Week (MOTW) 网站,其中有一些 more examples of difflib
  • 我向下滚动了这些示例,但从技术上讲,它们都不适用于我正在寻找的内容。不过谢谢!
  • @user2597879,也许您可​​以提供一些简短的示例,以及您希望如何显示差异
【解决方案2】:

只要您不关心订单,您就可以使用:

with open('file1') as f:
    t1 = f.read().splitlines()
    t1s = set(t1)

with open('file2') as f:
    t2 = f.read().splitlines()
    t2s = set(t2)

#in file1 but not file2
print "Only in file1"
for diff in t1s-t2s:
    print t1.index(diff), diff

#in file2 but not file1
print "Only in file2"
for diff in t2s-t1s:
    print t2.index(diff), diff

编辑: 如果您确实关心订单并且它们大多相同,那么为什么不直接使用命令diff

【讨论】:

  • 如果行足够长,set 人口可能会杀死系统内存
  • 我使用这种方法发现了差异,但不知道它们出现在哪一行
【解决方案3】:

你可以这样做:

import difflib, sys

tl=100000    # large number of lines

# create two test files (Unix directories...)

with open('/tmp/f1.txt','w') as f:
    for x in range(tl):
        f.write('line {}\n'.format(x))

with open('/tmp/f2.txt','w') as f:
    for x in range(tl+10):   # add 10 lines
        if x in (500,505,1000,tl-2):
            continue         # skip these lines
        f.write('line {}\n'.format(x))        

with open('/tmp/f1.txt','r') as f1, open('/tmp/f2.txt','r') as f2:
    diff = difflib.ndiff(f1.readlines(),f2.readlines())    
    for line in diff:
        if line.startswith('-'):
            sys.stdout.write(line)
        elif line.startswith('+'):
            sys.stdout.write('\t\t'+line)   

打印(400 毫秒):

- line 500
- line 505
- line 1000
- line 99998
        + line 100000
        + line 100001
        + line 100002
        + line 100003
        + line 100004
        + line 100005
        + line 100006
        + line 100007
        + line 100008
        + line 100009

如果你想要行号,使用枚举:

with open('/tmp/f1.txt','r') as f1, open('/tmp/f2.txt','r') as f2:
    diff = difflib.ndiff(f1.readlines(),f2.readlines())    
    for i,line in enumerate(diff):
        if line.startswith(' '):
            continue
        sys.stdout.write('My count: {}, text: {}'.format(i,line))  

【讨论】:

    猜你喜欢
    • 2020-05-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-05-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多