【发布时间】:2016-01-15 14:24:55
【问题描述】:
我有两个大列表。
第一个是w_list;一个包含 (1) 单词(例如 'right')、(2) 开始 id/标签(例如 '#TWsp10')和 (3) 结束 id/标签(例如 '#TWep10')的大列表. (这些话来自两个说话者之间的对话)。 w_list 开始:
w_list = [['right', '#TWSp10', '#TWEp10'], ['_', '#TWSp11', '#TWEp11'], ['cough', '#TWSp12', '#TWEp12'], ['_', '#TWSp13', '#TWEp13'], ['go', '#TWSp14', '#TWEp14'], [...] , [...]]
第二个列表 (t_list) 是一个很大的字典列表。字典由 (1) 'xml:id' 键和相应的 id/tag 值组成(例如 'TWsp10'、'TWep10'),这些值类似于 w_list 中的开始和结束 id/tags,这意味着 t_list 中的字典数是w_list 中列表数量的两倍),(2)'interval'键,其值表示单词在对话中出现的时间,以及(3)不相关的'since'键。 t_list 的开始:
t_list = [{'interval': '0', 'xml:id': 'TWSp10', 'since': '#TW0'}, {'interval': '0.2108', 'xml:id': 'TWEp10', 'since': '#TW0'}, {'interval': '0.2108', 'xml:id': 'TWSp11', 'since': '#TW0'}, {'interval': '0.7049', 'xml:id': 'TWEp11', 'since': '#TW0'}, {'interval': '0.7049', 'xml:id': 'TWSp12', 'since': '#TW0'}, {'interval': '0.9223', 'xml:id': 'TWEp12', 'since': '#TW0'}, {'interval': '0.9223', 'xml:id': 'TWSp13', 'since': '#TW0'}, {'interval': '1.6568', 'xml:id': 'TWEp13', 'since': '#TW0'}, {'interval': '1.6568', 'xml:id': 'TWSp14', 'since': '#TW0'}, {'interval': '1.7886', 'xml:id': 'TWEp14', 'since': '#TW0'}, {...} , {...}]
这是我想要创建的示例输出,是否有任何提示可以让我走上正确的道路/轨道?:
word: 'right' start: 0 end: 0.2108
word: '_' start: 0.2108 end: 0.1049
word: 'cough' start: 0.7049 end: 0.9223
''
''
与以下内容“相似”:
'right' '#TWsp10': 0 '#TWsp10': 0.2108
'_' '#TWsp11': 0.2108 '#TWep11': 0.1049
'cough' '#TWsp12': 0.7049 '#TWep12: 0.9223
''
''
用冒号创建单词、开始和结束字符串绝对不是问题。 这是如何从 dicts(在 t_list 中)提取区间值,并将它们与列表(在 w_list 中)各自的结束/开始 id/标签结合起来。
感谢任何建议。
【问题讨论】:
标签: python list dictionary