【发布时间】:2016-02-08 11:01:53
【问题描述】:
我正在使用 google 英语 1gram 数据集link here,它看起来如下:
C'ape 1804 1 1
C'ape 1821 1 1
C'ape 1826 1 1
C'ape 1838 2 2
C'ape 1844 1 1
C'ape 1869 1 1
C'ape 1874 1 1
C'ape 1878 2 2
C'ape 1879 1 1
C'ape 1880 1 1
CABMEL 1873 1 1
CABMEL 1874 1 1
CABMEL 1875 1 1
CABMEL 1879 1 1
CABMEL 1884 1 1
CABMEL 1890 1 1
CABMEL 1899 1 1
CABMEL 1901 1 1
CABMEL 1903 3 2
CABMEL 1910 2 2
CABMEL 1912 1 1
CABMEL 1915 1 1
CABMEL 1926 2 2
CABMEL 1927 3 2
CABMEL 1928 4 2
CABMEL 1930 2 2
至少 4 列,有些行也包含 5。第一列是一个 1-gram,一个字符串,我只想提取那些在第一列中只有一个字符串的行,它只包含字母(大写或小写仅限字母)。我认为 grep 应该这样做,但我找不到正确的正则表达式来完成这项工作。任何可以轻松完成工作的unix实用程序? 我相信列是制表符分隔的。
编辑:输出将仅包含带有 CABMEL 的行
【问题讨论】:
-
这是一个更大的文件,我只是在这里发布了一些记录。我在问题中给出了完整文件的链接。
-
注意:该文件使用制表符作为列分隔符。请参阅下面的答案。