【发布时间】:2019-05-13 14:29:22
【问题描述】:
我有一个 PySpark Dataframe,其中有一列 strings。如何检查其中的哪些行是数字。我在 PySpark 的 official documentation 中找不到任何函数。
values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
| ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+
在 Python 中,有一个函数 .isDigit() 返回 True 或 False,如果 string 仅包含数字。
预期的数据帧:
+-----+-------+
| ID| Value |
+-----+-------+
|25q36| False |
|75647| True |
|13864| True |
|8758K| False |
|07645| True |
+-----+-------+
我想避免创建UDF。
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql numeric