【发布时间】:2017-03-08 12:11:43
【问题描述】:
我有一个巨大的文件,45 GB。我想把它分成4部分。我可以这样做:split --bytes=12G inputfile。
问题是它扰乱了文件的模式。此拆分根据大小剪切文件,因此不保留格式。我的输入文件如下所示:
Inspecting sequence ID chr1:11873-13873
V$ARID3A_04 | 1981 (-) | 0.899 | 0.774 | tttctatAATAActaaa
V$ARID3A_04 | 1982 (+) | 0.899 | 0.767 | ttctaTAATAactaaag
Inspecting sequence ID chr1:11873-13873
V$ARID3A_04 | 1981 (-) | 0.899 | 0.774 | tttctatAATAActaaa
V$ARID3A_04 | 1982 (+) | 0.899 | 0.767 | ttctaTAATAactaaag
我想拆分文件,但还要提到在Inspecting 处拆分文件的模式,以便我返回的拆分文件必须如下所示:
Inspecting sequence ID chr1:11873-13873
V$ARID3A_04 | 1981 (-) | 0.899 | 0.774 | tttctatAATAActaaa
V$ARID3A_04 | 1982 (+) | 0.899 | 0.767 | ttctaTAATAactaaag
V$ARNT_Q6_01 | 390 (+) | 1.000 | 0.998 | tACGTGgc
还有这个:
Inspecting sequence ID chr1:11873-13873
V$ARID3A_04 | 1981 (-) | 0.899 | 0.774 | tttctatAATAActaaa
V$ARID3A_04 | 1982 (+) | 0.899 | 0.767 | ttctaTAATAactaaag
V$ARNT_Q6_01 | 390 (+) | 1.000 | 0.998 | tACGTGgc
NOTE: 这种模式匹配应该是第二个偏好,而第一个应该是大小。例如,将文件拆分为 12 GB 的块,并根据 Inspecting 的模式匹配进行拆分。如果我只基于模式Inspecting 进行拆分,那么我将得到数千个拆分文件,因为这种模式一次又一次地重复。
【问题讨论】: