【发布时间】:2020-03-20 10:17:36
【问题描述】:
我有一个带有文本列的 PySpark 数据框。如果 Pyspark 数据框包含“,”,它似乎会截断文本列的内容。
这就是我保存文件的方式。
read_file = spark.read.csv('C://data/myfile.csv', header = True, inferSchema = True)
# Do some processing then save file as csv
read_file = read_file.select(read_file.text_col.cast(StringType())
read_file.coalesce(1).write.csv('text.csv', mode = 'overwrite', header = True)
Sample of text:
Bot[10/26/2019 09:21:44]: Hi there, welcome to XXX. I will be your virtual assistant today.
After saving it will output this:
>>> Bot[10/26/2019 09:21:44]: Hi there
我已尝试将该列转换为 StringType,但如果它包含“,”,它仍然会截断该列。
【问题讨论】:
标签: csv apache-spark pyspark apache-spark-sql