【发布时间】:2019-01-17 22:19:36
【问题描述】:
我正在尝试从没有一致分隔符的大型非结构化文本文件(每个文件 1,000,000 到 15,000,000 行)中提取数据元素。数据元素的顺序是一致的。
Sample data:
NAME FIRSTNAME LASTNAME DATE-OF-BIRTH 01/01/2019 ID-NUMBER 123
ADDRESS-1 1234 FAKE STREET COUNTY-CODE 123
ADDRESS-2
CITY NOWHERE STATE OH ZIP 12345
RANDOM DATA .... 700+ LINES
NAME FIRSTNAME2 LASTNAME2 DATE-OF-BIRTH 01/01/2019 ID-NUMBER 4567
ADDRESS-1 123456 OTHER STREET COUNTY-CODE 45678
ADDRESS-2
CITY SOMEWHERE STATE MI ZIP 65432
RANDOM DATA .... 700+ LINES
我正在寻找一种方法来使用下面列出的几个字段的值创建 CSV 输出:
NAME, COUNTY-CODE, ZIP
FIRSTNAME LASTNAME, 123, 12345
FIRSTNAME2 LASTNAME2, 45678, 65432
数据不是制表符分隔的,间距会有所不同。任何帮助将不胜感激!
【问题讨论】:
-
当您说“RANDOM DATA.... 700+”行时,该数据是否也是 NAME FIRSTNAME LASTNAME.... 还是完全不同的东西?
-
没有每个数据元素都是唯一的。当我放入“随机数据”时,它包含 700 多行其他客户信息和交易数据
标签: python parsing text export-to-csv