【问题标题】:Error when converting text to CSV将文本转换为 CSV 时出错
【发布时间】:2017-06-07 16:53:26
【问题描述】:

我是哥伦比亚大学的一名研究助理,我一直在使用 Open Secret 的大量数据进行竞选游说。我最近遇到了一个数据问题,即他们提供的 .txt 文件由于格式错误而无法正确转换为 .csv 文件。我已经解决了大部分由多余的逗号和括号引起的错误,但是,一个错误仍然是有问题的。在一个数据集(包含超过 300 万行数据)中,应该在单行的单列中包含特定问题的信息。但是,文本文件的排列方式是,其中一些文本已由换行符分隔,因此导致某些应该存在于单个列中的信息已在不同行之间拆分。下面附上 EmEditor 中的一个例子。我想知道是否有一个程序或代码可以运行它以快速修复这些错误?它可以像一行代码一样简单,查看每行的第一个字符,如果它不是数值,或者是字母或符号,只需退格一次,以便将信息放在前一行。我的编码经验很少,任何帮助将不胜感激。

【问题讨论】:

    标签: csv text formatting


    【解决方案1】:

    你可以使用正则表达式。

    在查找和替换窗口中,选中“使用正则表达式”框。

    在查找和替换文本框框中使用以下表达式。

    查找:\n([^\d])

    替换:\1

    这会搜索所有出现的换行符后跟非数字字符,并仅将其替换为非数字字符,从而删除换行符。

    【讨论】:

    • @Nagraj 非常感谢您的帮助。你的建议完全符合我的要求。行已成功合并,多余的行已删除。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-11-07
    • 2015-06-24
    • 2023-02-15
    • 2016-11-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多