【发布时间】:2016-05-02 07:55:00
【问题描述】:
在运行代码以合并(基本上是内部连接)两个 csv 文件时,我在读取 csv 文件时遇到错误。我的代码:
import csv
import pandas as pd
s1= pd.read_csv(".../noun.csv")
s2= pd.read_csv(".../verb.csv")
merged= s1.merge(s2, on=("userID" ,"sentID"), how ="inner")
merged.to_excel(".../merge1.xlsx",index = False)
错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 5: invalid start byte
我的内容示例是:
verb file
userID sentID verb
['3477' 1 ['am', 'were', 'having', 'attended', 'stopped']
['3477' 2 ['felt', 'thrusting']
noun file
userID sentID Sentences
['3477' 1 Thursday,
['3477' 1 November
【问题讨论】:
-
所以你的文件不是 UTF-8 编码的。选择一种不同的编码,一种与您的文件内容实际匹配的编码。
-
请edit您的问题并添加您输入的相关部分。
-
我怎么知道哪个是正确的?你有什么想法吗?
-
不,我不知道您的文件中有什么。如果你也不知道,你需要去问问提供文件的人。
-
我添加了我的文件类型。 @Martjin