【发布时间】:2018-02-16 04:58:08
【问题描述】:
我有一个要求,我需要将一些列收集到 Spark 驱动程序中,并且一些列包含非 ascii 字符。但是在收集它们时会出错:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 187: ordinal not in range(128).
知道如何在获取列内容时将 udf 应用于列内容,然后将其收集到驱动程序中吗?
我为此使用 PySpark。
【问题讨论】:
-
如何读取数据?如果您从文件中读取它们,您可以在读取时将编码定义为 utf-8
-
我正在从 Hive 读取数据。
标签: apache-spark utf-8 pyspark apache-spark-sql ascii