【发布时间】:2019-03-31 03:55:45
【问题描述】:
我正在使用 databricks 数据框(pyspark)
我有一个数据框,其中包含一个带有字符串值的数组。
我需要使用 df 值与我拥有的 python 数组中的值进行组合。
我想要的是将 df 值像这样放在 python 数组中:
listArray = []
listArray.append(dataframeArrayValue)
print(listArray)
outPut:
[value1, value2, value3]
我得到的问题是它有点工作,但由于某种原因,我无法使用添加到新数组列表 (listArray) 的字符串值。
我的概念是我要构建一个 url,我需要使用 SQL 来获取该 url 的开始信息。第一部分是我放入 df 数组的内容。对于 url 的最后一部分,我将其存储在 python 数组中。
我想遍历两个数组,并将结果放入一个空数组中。
类似这样的:
display(dfList)
outPut:
[dfValue1, dafValue2, dfValue3]
print(pyList)
[pyValue1, pyValue2, pyValue3]
Whant to put them together like this:
dfValue1 + pyValue2 etc..
And getting a array like this:
newArrayContainingBoth = []
-- loop with append
结果:
print(newArrayContainingBoth)
outPut:
[dfValue1+pyValue1, dfValue2+pyValue2, dfValue3+pyValue]
希望我的问题足够清楚
【问题讨论】:
-
你是如何循环播放的?
-
你试过了吗?
newArrayContainingBoth = dfList + pyList -
我还没有制作循环喷气机。一个问题是,从 df 看,它看起来像这样:[value1,value2],但是当我尝试获取第一个元素 dfList[0] 时,我得到 [value1,value2]。我不知道为什么会这样,因为太荒谬了,应该只得到我[value1]。抱歉英语不好
-
请注意,您确定吗? df = [value1, value2] 你能展示一些样本值df吗?另外,如果你执行 python_list = df.collect(),你所拥有的只是 python_list 中的列表。
标签: python arrays dataframe pyspark