【发布时间】:2019-09-16 05:17:55
【问题描述】:
我的数据文件与 Graph Edges 相关。每行的格式为(src node & dest node)。这是我的架构定义。
eschema = StructType([StructField("src", StringType(), True), StructField("dst", StringType(), True)])
我试图阅读该行,用分隔符(',')将其拆分并将每个元素转换为一个 int。但这不知何故失败了。
lines = sc.textFile(filename)
lines = lines.map(lambda l : map(int, l.split(delim)))
lines = lines.map(lambda l : Row(l[0], l[1]))
运行此程序时,我收到错误消息
StructType can not accept object 0 in type <type 'int'>
我正在使用 Python 2.7,Spark > 2.0。分割线后,对象的类型是 Unicode 而不是字符串,这会有什么不同。如何解决这个问题。任何建议都会有很大帮助。谢谢
【问题讨论】:
标签: python apache-spark pyspark pyspark-dataframes