【发布时间】:2016-03-20 21:37:37
【问题描述】:
我想将包含 250000 个帖子的 CSV 文件从 Stack Exchange 加载到 Hive。 CSV 采用以下格式:
Id Score ViewCount ParentId Body DisplayName rnk
每个字段都由“,”分隔,但将所有内容搞砸的字段是正文。
正文包含网站上前 250000 个帖子的内容,因此其中包含各种字符,因此每行有一个帖子,有 250000 行。
我已经阅读了 Serde 和 Regexp,但我的 Hive 表中仍然出现空值。
CREATE TABLE dataStore(Id string, Score string, ViewCount string, ParentId string, Body String, DisplayName String, Rank String)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = """",
"escapeChar" = "\"
)
STORED AS TEXTFILE;
【问题讨论】: