如何在熊猫数据框中拆分值并插入新行？答案

【问题标题】：How to split a value and insert new row in pandas data frame?如何在熊猫数据框中拆分值并插入新行？
【发布时间】：2017-04-27 15:17:52
【问题描述】：

我有以下数据框：

      id  sub_id  timestamp            dist     time_dif     speed     status
   1   1   1      2016-07-01 00:01:00  20       00:01:00     0.0075    True
   2   1   1      2016-07-01 00:01:59  29       00:00:59     0.3450    True
   3   1   1      2016-07-01 00:03:00  30       00:01:00     0.0987    True
   4   1   2      2016-07-01 00:03:59  21       00:59:00     0.5319    True
   5   1   2      2016-07-01 00:05:00  40       00:01:00     0.0076    False

在上面的数据框中，status = False，只要距离>30。

我想对创建函数或方式提出建议，以便每当状态为“false”时，这意味着距离 > 30，（在上述数据框中，第 5 行）我可以执行以下操作：

处理 status = False (ROW 5) 的行

第 5 行“dist”下的值（其中 status = False，dist = 40）变为 30，因为 30 是阈值距离，不能超过 30。所以，40 - 30 = 10，这额外的 10 应该移到下一行。

“状态”变为“真”（因为 dist = 30）

“速度”保持不变，

“id”、“sub_id”保持不变

“time_diff”有一个新值，因为我们在第5行有速度和距离，所以可以计算时间

“timestamp”也应该改变，如果我们计算time_diff，我们可以将time_diff添加到第4行的“time”的值上，得到第5行的新时间戳。

处理下一行 (ROW 6)

现在，只要 dist >30 / status = False，就应该在数据框中插入第 6 行或下一行，这样前一行中的任何额外距离都会进入这个新行。

在上面的示例中，第 6 行下的“dist”的值为 (40-30)，即 10。

“id”保持不变，

“sub_id”变成3（加1），

由于 10 现在小于 30，“状态”应该为真。

“速度”保持不变。

“time_diff”将再次使用第 6 行中的“dist”和“speed”值进行计算。

“timestamp”也将被计算，通过将“time_diff”添加到前一行“timestamp”的值

虽然数据框中的其余行照常跟随，直到遇到另一行 status = False。

另外，可能存在“dist” = 70的情况，所以在这种情况下，dist = 70的行应该有dist = 30，那么下一行应该有dist = 40，仍然大于30，所以它应该只保留 30 个，并将剩余的 10 个插入下一行。

如果有任何不清楚的地方，请告诉我。提前致谢。

【问题讨论】：

为了确保我理解正确，当发生更改时，您还会覆盖现有行吗？
@AsheKetchum 是的，status= False 的行将被新值覆盖。此外，以下是新行的创建，该行将具有“dist”下的剩余距离和相应的值。
存在iterrows() 和itertuples() 可以让您遍历数据框，然后您可以使用df.loc[nextRowsIndex]==newRow 创建新行。
另外，当您创建一个新行时，您是否希望它直接位于创建它的行的下方？假设你有[true, false, true, true]，false 的分离组件会插入第三行吗？还是会在最后附加？
@AsheKetchum 是的，就是这样，它应该在该行的正下方。并且新行应该增加了“sub_id”。

标签： python pandas dataframe

【解决方案1】：

我没有包括对距离、时间和速度字段的更改，但想法应该是相似的。让我知道这是否有效，我会尝试从那里添加编辑。由于对您迭代的对象进行更改通常很糟糕，因此我创建了一个新的 DataFrame 来存储更改。

df2 = pd.DataFrame(columns = df.columns)
limit = 30
Index = 0
for row in df.itertuples():
    if row[7] == False: # 7 is the index of the status column
        tempRow = list(row[:])
        tempRow[4]=limit # 4 is the index of the dist column
        tempRow[7] = True
        df2.loc[Index] = tempRow
        Index +=1
        tempRow[4] = row[4]-limit
        tempRow[7] = tempRow[7] < limit
        tempRow [2]= row[2]+1 # 2 is the index of the sub_id column
        df2.loc[Index] = tempRow
    else:
        df2.loc[Index] = row
    Index += 1
df2

【讨论】：

非常感谢，我会处理这个问题，如果我发现任何困难，请告诉你。非常感谢
这将使您完成一次迭代
如果要处理 dist 为 70（大于 30*2）的情况，可能需要将第一个 if 语句与 while 循环更改/组合