【发布时间】:2020-03-24 21:25:59
【问题描述】:
我有一个 pyspark 数据框,如下面的输入数据。我想创建一个新列 product1_num ,它将 productname 列中每条记录中的第一个数字解析为一个新列。我在下面有示例输出数据。就字符串拆分和正则表达式匹配而言,我不确定 pyspark 中有什么可用的。谁能建议如何使用 pyspark 做到这一点?
输入数据:
+------+-------------------+
|id |productname |
+------+-------------------+
|234832|EXTREME BERRY SAUCE|
|419836|BLUE KOSHER SAUCE |
|350022|GUAVA (1G) |
|123213|GUAVA 1G |
+------+-------------------+
输出:
+------+-------------------+-------------+
|id |productname |product1_num |
+------+-------------------+-------------+
|234832|EXTREME BERRY SAUCE| |
|419836|BLUE KOSHER SAUCE | |
|350022|GUAVA (1G) |1 |
|123213|GUAVA G5 |5 |
|125513|3GULA G5 |3 |
|127143|GUAVA G50 |50 |
|124513|LAAVA C2L5 |2 |
+------+-------------------+-------------+
【问题讨论】:
标签: python pyspark pyspark-sql pyspark-dataframes