【发布时间】:2016-05-30 10:35:35
【问题描述】:
我有 2 个 txt 文件(a 和 b_)。
file_a.txt 包含一长串 4 字母组合(每行一个组合):
aaaa
bcsg
aacd
gdee
aadw
hwer
etc.
file_b.txt 包含各种长度的字母组合列表(有些带有空格):
aaaibjkes
aaleoslk
abaaaalkjel
bcsgiweyoieotpwe
csseiolskj
gaelsi asdas
aaaloiersaaageehikjaaa
hwesdaaadf wiibhuehu
bcspwiopiejowih
gdeaes
aaailoiuwegoiglkjaaake
etc.
我正在寻找一个可以让我执行以下操作的 python 脚本:
- 逐行读取file_a.txt
- 取每个 4 字母组合(例如 aaai)
- 读取 file_b.txt 并找到所有以 4 字母组合开头的各种长度的字母组合(例如,aaaibjkes、aaailoiersaaageehikjaaa、aaai loiuwegoiglkjaaaike 等)
- 将每次搜索的结果打印在一个单独的 txt 文件中,该文件以 4 个字母组合命名。
文件aaai.txt:
aaaibjkes
aaailoiersaaageehikjaaa
aaailoiuwegoiglkjaaake
etc.
文件 bcsi.txt:
bcspwiopiejowih
bcsiweyoieotpwe
etc.
对不起,我是新手。请有人指出我正确的方向。到目前为止,我只有:
#I presume I will have to use regex at some point
import re
file1 = open('file_a.txt', 'r').readlines()
file2 = open('file_b.txt', 'r').readlines()
#Should I look into findall()?
【问题讨论】:
-
我认为这个问题与组合无关。当我们谈论组合时,我们谈论的是形成字符串的不同方式。例如长度为 2 的
a、b、c的组合看起来像abbc, ca` -
谢谢。那么,我们应该称它们为“字符串”吗? file_a.txt 和 file_b.txt 中的所有条目?
标签: python regex find substring combinations