【问题标题】:remove line (starting with same 22 charcaters) TAB text file删除行(以相同的 22 个字符开头)TAB 文本文件
【发布时间】:2013-02-21 11:52:58
【问题描述】:

我有一个 500 000 行的文本文件(不同俱乐部成员的地址),采用 TAB 格式(使用空格代替 TAB,因此所有列都在 中)。

有些行几乎相同(只有一列不同 - 一个人可以成为 2 个俱乐部的成员)。我不在乎删除哪一行重复,因为家庭地址相同,但我需要删除其中一个。

我可以在 EXCEL 中找到重复项(TEXT-TO-CELL 并删除它们。但随后会丢失带有列的文本模式,因为格式不是 TAB och CSV 格式。

在 NOTEPAD++ 或 TEXTPAD 中如何编写和使用正则表达式?

【问题讨论】:

    标签: notepad++


    【解决方案1】:

    我的解决方案:

    1. 在 EXCEL 中打开文本文件,使用“固定宽度”将其转换为列并添加一些新列。
    2. 使用 EXCEL 在一个文件夹中复制并删除这些行
    3. 将文件导出为“CSV(逗号分隔不同)”(不是“CSV WINDOWS”,因为瑞典字符“åäö”无法保存在此导出中)。
    4. 已下载 ULTRA EDIT 的免费测试版
    5. 使用“CSV to FIXED WIDTH”并为每列指定宽度
    6. 删除了“;”从每一列

    完成!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-08-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-31
      • 2010-10-16
      • 1970-01-01
      • 2015-10-23
      相关资源
      最近更新 更多