【发布时间】:2015-10-14 10:15:56
【问题描述】:
我有一个从平行语料库中提取的候选双语术语列表,格式如下
Difensori dei diritti umani, libertà di espressione >>> Human rights defenders, freedom of expression
我想要的是用双元组关联两种语言的项目。因此,源语言(意大利语)中的每个多词术语都将与目标语言(英语)中的每个多词术语以二元组关联。所以对于这个例子来说,二元组看起来像这样:
('Difensori dei diritti umani','Human rights defenders')
('Difensori dei diritti umani','freedom of expression')
('libertà di espressione','Human rights defenders')
('libertà di espressione','freedom of expression')
有人可以帮忙吗?
【问题讨论】:
-
抱歉,这是纯粹的列表项配对还是您必须检查语言?
-
所以你想要的只是两个句子的克数的笛卡尔积,而不是等价相位的对齐(这是机器翻译领域的问题之一)。
-
这是一个笛卡尔积和字符串问题,到目前为止你有什么尝试?
-
当输出显示三元组时,你为什么要求二元组??
标签: python python-2.7 python-3.x nltk