您的文件中有大量空白字段,如果您将其下载为 .csv,则即使标题在其末尾也会有三个逗号。
例如你的第 6 行:
,道格·沃克,,,131,,罗伯·沃克,131,,纪录片,道格·沃克,星球大战:第七集原力觉醒 ,8,143,,0,,,,,,,,,12,7.1,, 0,,,
与这篇文章中的建议类似,您可以尝试一下。像记事本++或其他文本编辑器将“,”替换为“,?”,以填补您的空白。
Convert NA values to ? automatically while loading
我这样做了,然后你在第一行得到两个问号作为列名,这显然不起作用,所以将第一行更改为如下所示:
color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,?,num_user_for_reviews,language, ,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,additionalColName1,additionalColName2,additionalColName3
如果您现在尝试导入数据,weka 会开始告诉您它不喜欢哪些行以及原因。顺便提一句。您没有“删除每个特殊符号”!
用例如删除几行后它起作用的Ç字符。
这只是一个丑陋的解决方法,尝试填充空值并找到一个正则表达式或更好的方法来保存文件以删除每行的最后三个逗号,我现在太懒了。但我可以将它加载到 weka 中,这就是你想要的(: