【问题标题】:Pycharm does not auto suggest spark dataframe methodsPycharm 不会自动建议 spark 数据框方法
【发布时间】:2020-05-21 19:20:50
【问题描述】:

我已经使用 Spark Scala 很长时间了,是 PySpark 的新手。

我正在尝试为 Spark 项目设置 PyCharm。一切都是从依赖关系的角度设置的(例如 pip install spark )。我可以创建一个新的python文件并编写spark代码,一切都解决了。这是代码的sn-p:

from pyspark.sql import SparkSession

spark=SparkSession.builder.enableHiveSupport.getOrCreate()
data = spark.sql ('select * from db.tbl')

此时我应该期望 data 是一个 DataFrame 吗?当我输入数据时。我希望 PyCharm 以下拉菜单的形式告诉我可能的方法,如过滤、加入等,但它没有。

我还需要做些什么才能使其正常工作吗?我正在使用 python 2.7(必须,因为这是我们的 hadoop 集群支持的)

【问题讨论】:

    标签: pyspark pycharm


    【解决方案1】:

    在 Python 中,变量是动态类型的,因此您可以在没有类型的情况下声明它们。 但是从 Python 3.6+ 开始,你可以像这样声明变量类型:

    data : DataFrame = spark.sql ('select * from db.tbl')
    

    通过这种方式,您可以让 PyC​​harm 知道 data 的类型,并为该对象建议可能的方法。

    【讨论】:

    • 谢谢!!这确实有效,不幸的是我必须使用 python 2.7。更新了我的帖子。我对 2.7 有什么选择吗?
    猜你喜欢
    • 2022-11-19
    • 1970-01-01
    • 1970-01-01
    • 2016-07-15
    • 2022-06-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-12-17
    相关资源
    最近更新 更多