sqoop的数据抽取过程记录

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟开了两个map。模型是oracle----hdfs（hive）。以前只抽过几十万级别，所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖，没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

2021-11-25
2021-05-23
2022-12-23
2022-12-23
2022-12-23
2022-12-23
2022-12-23