【问题标题】:Comma and tab delimited tsv file逗号和制表符分隔的 tsv 文件
【发布时间】:2017-02-25 23:24:29
【问题描述】:

此问题适用于使用 pandas 库的 python 2.7。 我下载了这个文件: http://language.media.mit.edu/data/public/wikipedia_userlang_iso639-3.zip 这是一个带有制表符和逗号的文件。我已经在整个互联网上搜索了这个。

我想用熊猫把它分开。这会产生错误:

df = pd.read_table('wikipedia_userlang_iso639-3.tsv', sep= '\t')

print df [:10]

因为文件也有逗号。

非常感谢您的帮助!

【问题讨论】:

    标签: python pandas delimiter


    【解决方案1】:

    该文件无法解析为 CSV 文件,因为每行没有固定数量的字段(范围从 2 到 241)。您必须自己解析它并决定如何为每个用户处理可变数量的语言:

    import codecs
    
    with codecs.open('wikipedia_userlang_iso639-3.tsv', 'r', 'utf-8') as handle:
        for line in handle:
            chunks = line.strip().split('\t')
    
            username = chunks[0]
            languages = [c.split(',') for c in chunks[1:]]
    
            # Do something with the above variables
    

    【讨论】:

    • 谢谢!如果我想用用户名作为一列、语言作为一列以及用户名用这种语言编辑的次数来制作一个数据框,我该如何继续?
    猜你喜欢
    • 2014-04-20
    • 2016-12-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多