【发布时间】:2017-06-07 16:53:26
【问题描述】:
我是哥伦比亚大学的一名研究助理,我一直在使用 Open Secret 的大量数据进行竞选游说。我最近遇到了一个数据问题,即他们提供的 .txt 文件由于格式错误而无法正确转换为 .csv 文件。我已经解决了大部分由多余的逗号和括号引起的错误,但是,一个错误仍然是有问题的。在一个数据集(包含超过 300 万行数据)中,应该在单行的单列中包含特定问题的信息。但是,文本文件的排列方式是,其中一些文本已由换行符分隔,因此导致某些应该存在于单个列中的信息已在不同行之间拆分。下面附上 EmEditor 中的一个例子。我想知道是否有一个程序或代码可以运行它以快速修复这些错误?它可以像一行代码一样简单,查看每行的第一个字符,如果它不是数值,或者是字母或符号,只需退格一次,以便将信息放在前一行。我的编码经验很少,任何帮助将不胜感激。
【问题讨论】:
标签: csv text formatting