【发布时间】:2021-08-14 10:48:20
【问题描述】:
在 pyspark 中读取 csv 文件时,有什么方法可以使用自定义记录分隔符。在我的文件中,记录由 ** 而不是换行符分隔。将 csv 读入 PySpark 数据帧时,有什么方法可以使用此自定义行/记录分隔符?我的列分隔符也是';'下面的代码正确获取了列,但它只计为一行
from pyspark import SparkContext
sc = SparkSession.builder.appName('temp').getOrCreate()
df = sc.read.format('csv').option("header", "false").option("delimiter", ';').option("inferSchema", "true").load("some-file-on-s3")
【问题讨论】:
标签: python python-3.x pyspark apache-spark-sql