在 python 中解析文本文件并输出到 CSV答案

【问题标题】：Parsing a text file in python and outputting to a CSV在 python 中解析文本文件并输出到 CSV
【发布时间】：2015-11-15 14:27:15
【问题描述】：

前言 - 我对 Python 还是很陌生，在其他语言方面有更多经验。

我有一个文本文件，其中包含通用（但略有不同）格式“./abc123a1/type/1ab2_x_data_type.file.type”的单列字符串列表

我需要从所有数百行中提取 abc123a1 和 1ab2 部分，并将它们放在 csv 中的两列（a 和 b 列）下。有时可能会有一个“1ab2_a”和一个“1ab2_b”，但我只想要一个 1ab2。所以我想抓住“1ab2_a”并忽略所有其他人。

我有我认为可以工作的正则表达式：

tmp = list()
if re.findall(re.compile(r'^([a-zA-Z0-9]{4})_'), x):
    tmp = re.findall(re.compile(r'^([a-zA-Z0-9]{4})_'), x)
elif re.findall(re.compile(r'_([a-zA-Z0-9]{4})_'), x):
    tmp = re.findall(re.compile(r'_([a-zA-Z0-9]{4})_'), x)
if len(tmp) == 0:
    return None
elif len(tmp) > 1:
    print "ERROR found multiple matches"
    return "ERROR"
else:
    return tmp[0].upper()

我正在尝试逐步制作此脚本并进行测试以确保它有效，但事实并非如此。

import sys
import csv

listOfData = []

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
    for line in f:
        listOfData.append([line])
print listOfData

with open('extracted.csv', 'w') as out_file:
    writer = csv.writer(out_file)
    writer.writerow(('column a', 'column b'))
    writer.writerows(listOfData)

print listOfData

除了列标题之外，仍然无法在 csv 中获取任何内容，更不用说解析版本了！

有没有人有更好的想法或格式可以做到这一点？一位朋友提到要研究 glob.glob，但我也没有运气让它工作。

【问题讨论】：

当你打印listOfData时，它有你想要的数据吗？
"所以我想抓住 "1ab2_a" 而忽略所有其他的。" 不确定是否能很好地理解这句话。您要提取1ab2 还是1ab2_a？
您能否编辑问题以添加更多示例输入行？还要添加该输入的预期输出。

标签： python regex python-2.7 parsing csv

【解决方案1】：

恕我直言，您离成功不远了。问题是您读取整个文件只是为了打印行，然后（在文件末尾）尝试将它们放入列表中......并得到一个空列表！

你应该只读一次文件：

import sys
import csv

listOfData = []

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
        listOfData.append([line])
print listOfData

with open('extracted.csv', 'w') as out_file:
    writer = csv.writer(out_file)
    writer.writerow(('column a', 'column b'))
    writer.writerows(listOfData)

print listOfData

一旦成功，您仍然需要使用正则表达式来获取相关数据以放入 csv 文件中

【讨论】：

【解决方案2】：

我不确定您的正则表达式（它很可能不起作用），但是您当前的（非正则表达式，简单）代码不起作用的原因是 -

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
    for line in f:
        listOfData.append([line])

如您所见，您首先迭代文件中的每一行并打印它，应该没问题，但循环结束后，文件指针位于文件末尾，因此再次尝试迭代它会不产生任何结果。您应该只对其进行一次迭代，并在其中进行打印和附加到列表。示例 -

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
        listOfData.append([line])

【讨论】：

【解决方案3】：

我认为至少部分问题在于以下两个for 循环：

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
    for line in f:
        listOfData.append([line])

第一个prints 是f 的所有行，所以第二个没有什么可以迭代的，除非你先f.seek(0) 并倒回文件。

另一种方法可以简单地做到这一点：

with open(sys.argv[1]) as f:
    print "yes"
    for line in f:
        print line
        listOfData.append([line])

如果没有超过一行的示例输入数据，很难判断您的正则表达式是否正常。

【讨论】：

【解决方案4】：

你确定你需要所有的正则表达式吗？您似乎正在解析路径和文件名列表。可以使用split 命令拆分路径，例如：

print "./abc123a1/type/1ab2_a_data_type.file.type".split("/")

愿意：

['.', 'abc123a1', 'type', '1ab2_a_data_type.file.type']

然后您可以创建一个 set，其中包含第二个条目和第四个条目中的“_”，例如

('abc123a1', '1ab2')

这可用于仅打印每个条目的第一个条目：

pairs = set()

with open(sys.argv[1], 'r') as in_file, open('extracted.csv', 'wb') as out_file:
    writer = csv.writer(out_file)

    for row in in_file:
        folders = row.split("/")
        col_a = folders[1]
        col_b = folders[3].split("_")[0]

        if (col_a, col_b) not in pairs:
            pairs.add((col_a, col_b))
            writer.writerow([col_a, col_b])

所以对于这样的输入：

./abc123a1/type/1ab2_a_data_type.file.type
./abc123a1/type/1ab2_b_data_type.file.type
./abc123a2/type/1ab2_a_data_type.file.type
./abc123a3/type/1ab2_a_data_type.file.type

你会得到一个 CSV 文件，如下所示：

abc123a1,1ab2
abc123a2,1ab2
abc123a3,1ab2

【讨论】：