【发布时间】:2017-06-12 21:34:35
【问题描述】:
我有一个大的pyspark.sql.dataframe.DataFrame,我想保留(所以filter)保存在location 列中的URL 包含预先确定的字符串的所有行,例如'google.com'。
我试过了:
import pyspark.sql.functions as sf
df.filter(sf.col('location').contains('google.com')).show(5)
但这会引发
TypeError: _TypeError: 'Column' object is not callable'
如何正确过滤我的 df?提前谢谢了!
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql