【发布时间】:2018-07-18 09:40:43
【问题描述】:
我有一个包含 400 列的 CSV,其中一些列的值中有“”。例如:
Field_A
"123"
""
"21111"
我的问题是:当我在 Hive 中创建表时,是否可以从数据中自动删除此引号?或者我需要在每个字段中添加regexp_replace() 才能删除它?
谢谢!
【问题讨论】:
我有一个包含 400 列的 CSV,其中一些列的值中有“”。例如:
Field_A
"123"
""
"21111"
我的问题是:当我在 Hive 中创建表时,是否可以从数据中自动删除此引号?或者我需要在每个字段中添加regexp_replace() 才能删除它?
谢谢!
【问题讨论】:
我相信 hortonworks 的以下帖子回答了您的问题。 https://community.hortonworks.com/questions/66603/how-to-remove-double-quote-from-csv-file-at-time-o.html
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = "\""
)
【讨论】: