【发布时间】:2019-11-18 15:13:39
【问题描述】:
我正在通过 PySpark 创建配置单元表。
有没有办法在写入 hive 之前将 cmets 添加到每一列?
例子:
df = spark.table('sometable') # 添加 cmets df.write.saveAsTable('mytablewithcmets')
【问题讨论】:
标签: apache-spark hive pyspark
我正在通过 PySpark 创建配置单元表。
有没有办法在写入 hive 之前将 cmets 添加到每一列?
例子:
df = spark.table('sometable') # 添加 cmets df.write.saveAsTable('mytablewithcmets')
【问题讨论】:
标签: apache-spark hive pyspark
列类的alias 方法采用metadata 选项,其中可能包含注释。
df_with_column_comment = df.select( df.col.alias( 'col',
metadata = { 'comment': 'Column description' }
) )
据我所知,列是不可变的,因此在创建后无法添加评论。
【讨论】:
登录 pyspark shell
bash$ pyspark
>>> spark.sql("create table cmnt(id string COMMENT 'new')")
Then login to hive cli:
hive> desc formatted cmnt;
OK
# col_name data_type comment
id string new
然后就可以看到hive表中的cmets了!
【讨论】:
CREATE TABLE table_name( column1 STRING, column2 STRING COMMENT "some comment", column3 LONG) USING csv OPTIONS (header true, path '/data/table.csv')
【讨论】: