【问题标题】:Weka csv to arff special characters caue errorWeka csv 到 arff 特殊字符导致错误
【发布时间】:2014-08-15 10:54:38
【问题描述】:

我是 Weka 的新手,在将包含 Tweets 的 CSV 文件转换为 Arff 文件时遇到问题。

CSV 看起来像这样

Tweet,Class
Conference Update: 50% Off Registration to End .. http://t.co/nZtkSzZnJ6,Yes

当我尝试使用 Explorer 转换为 .arff 时,我收到以下错误 “...不识别为 CSV 数据文件原因:值的数量错误。读取 1 预期 2,读取令牌 [EOF],第 2 行”

删除“%”字符允许文件无错误地转换为 arff。我可以删除“%”和其他字符,但我真的不想更改我的推文数据。用单引号或双引号括起来也无济于事。知道我做错了什么吗?

感谢任何帮助

【问题讨论】:

    标签: csv twitter weka arff


    【解决方案1】:

    Weka 可能将“%”解释为注释的开头,并可能忽略“%”和该行的其余部分。

    请将包含字符“%”的整个字段用引号括起来(单引号“'”和双引号'"'都可以)。

    例如: 一个 csv 文件,其内容如下两行,可以通过 Weka 转换为 Arff 文件。

    推文,课堂 "会议更新:注册到结束可享受 50% 的折扣 ..http://t.co/nZtkSzZnJ6",是的

    附: 很抱歉我之前的回答不正确。 PRIVIOUS ANSWER(错误答案)是: 尝试将“%”字符替换为“\%”。 “\”用作转义字符,因此“\”使注释分隔符“%”变为普通字符“%”。

    【讨论】:

    • 谢谢,我确实添加了“\”,就像这样“会议更新:注册折扣 50%”,但最终出现相同的错误“读取 1 预期 2,读取令牌 [EOF],第 2 行”。是否有不可接受的字符列表?还是一个预处理它们的程序?
    • 我尝试直接在记事本中创建 .arff 并收到以下错误:
    猜你喜欢
    • 2016-12-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-22
    • 1970-01-01
    • 2013-10-22
    相关资源
    最近更新 更多