如何在熊猫中相互减去两列列表？答案

【问题标题】：How to subtract two columns of lists from each other in pandas?如何在熊猫中相互减去两列列表？
【发布时间】：2020-09-06 23:12:30
【问题描述】：

我有一个制表符分隔值文本文件中的数据，如下所示：

FileName    Onsets          Offsets
FileName1   [9, 270, 763]   [188, 727, 1252]
FileName2   [52, 634, 1166, 1775, 2104] [472, 1034, 1575, 1970, 2457]
FileName3   [180, 560, 1332, 1532]  [356, 1286, 1488, 2018]

这些是来自音频文件的数据。每行包含我正在研究的每种声音的一系列开始和偏移时间。

第一行数据中，9是第一声的开始时间，188是第一声的偏移时间。这意味着它持续了 179 毫秒。

我需要每个声音的持续时间，以及每个声音之间的静音间隔。

目前我读取的数据如下：

import pandas as pd
import numpy as np

data = pd.read_csv('/path/file.txt', delimiter='\t')
    
FileName = data[["FileName"]].to_numpy()  
Onsets = data[["Onsets"]].to_numpy()  
Offsets = data[["Offsets"]].to_numpy()

这给了我三个 numpy 数组。对于起始和偏移，每一行实际上是原始数据文件中的数字数组。

我可以使用什么代码来提取这些数字，以便我可以从偏移时间中减去开始时间以确定持续时间？

【问题讨论】：

文件中有引号吗？ Onsets 和 Offsets 数组呢？形状，dtype？我怀疑你已经将那些看起来像列表的东西加载为字符串。是这样吗？

标签： python arrays pandas numpy text

【解决方案1】：

第一个问题是，您有必须转换为列表的字符串列，使用 ast.literal_eval
为了执行数组减法，将'Onsets'和'Offsets'中的值转换为numpy.arrays
计算静音间隔：
- [9, 270, 763] 和 [188, 727, 1252] 之间的第一个静默间隙从 188 开始，到 270 结束。
- 要执行数组计算，请从Onsets 的最后两个元素中减去Offsets 的前两个元素
  - 270 - 188 和 763 - 727
  - x[0][1:] 是 Onsets 的第一个元素
  - x[1][:-1] 是 Offsets 的最后一个元素

import pandas as pd
import numpy as np
from ast import literal_eval

# load data and use literal_eval to converts strings to lists
data = pd.read_csv('/path/file.txt', delimiter='\t', converters={'Onsets': literal_eval, 'Offsets': literal_eval})

# convert rows of lists to numpy arrays
data[['Onsets', 'Offsets']] = data[['Onsets', 'Offsets']].applymap(np.array)

# subtract the values in the arrays
data['duration'] = data.Offsets.sub(data.Onsets)  # data.Offsets - data.Onsets can also be used

# calculate the gaps of silence
data['gaps'] = data[['Onsets', 'Offsets']].apply(lambda x: x[0][1:] - x[1][:-1], axis=1)

# display(data)
    FileName                       Onsets                        Offsets                   duration                  gaps
0  FileName1                [9, 270, 763]               [188, 727, 1252]            [179, 457, 489]              [82, 36]
1  FileName2  [52, 634, 1166, 1775, 2104]  [472, 1034, 1575, 1970, 2457]  [420, 400, 409, 195, 353]  [162, 132, 200, 134]
2  FileName3       [180, 560, 1332, 1532]        [356, 1286, 1488, 2018]       [176, 726, 156, 486]         [204, 46, 44]

【讨论】：

谢谢！这是一个非常明确的答案，可以帮助我理解我做错了什么。