混合语言的语义相似性答案

【问题标题】：semantic similarity for mix of languages混合语言的语义相似性
【发布时间】：2022-01-10 01:02:35
【问题描述】：

我有一个包含数千条话语的数据库。每条记录（话语）都是代表问题描述的文本，用户已将其提交给服务台。有时还包括服务台代理的响应。该语言技术性很强，它包含三种类型的标记：

语言 1 中的单词和短语（例如英语）
语言 2 中的单词和短语（例如法语、挪威语或意大利语）
机器生成的输出（例如，使用 unix 命令 ls -la 列出文件）

这些语言混杂在一起。我经常看到，在一次对话中，语言 1 的句子后面跟着语言 2。因此无法将数据分成两个单独的集合，对应于两种语言的话语。

任务是找到记录之间的相似性（问题描述）。本练习的目的是了解用户提交的某些 bug 是否彼此相似。

问：在这种情况下进行的标准方法是什么？

特别是，问题在于这些词来自两个不同的语料库（语料库），此外，一些技术词（如文件名、操作系统路径或应用程序名称）在任何语料库中都找不到。

【问题讨论】：

标签： nlp spacy word2vec bert-language-model sentence-similarity

【解决方案1】：

我认为没有“标准方法”——只有你可以尝试的方法。

您可以查看在不同语言之间对齐的词嵌入，以便跨多种语言的相似词具有相似的向量。然后，基于词向量（如所有文本词向量的简单平均）或基于词向量的成对比较（如“Word Mover's Distance”）为文本构建摘要向量的方法仍然适用于混合- 语言文本（甚至在一个文本中混合多种语言）。

单个文本，可能是关于单个（或密切相关的）问题的集合，具有混合语言可能是福而不是祸：您从此类文本中训练的一些分类器/嵌入可能能够学习十字架- 单词与共享主题的语言相关性。此外，您可以考虑使用额外的合成自动翻译文本来增强您的文本，适用于任何单语范围，以确保下游嵌入/比较更接近您理想的语言遗忘。

【讨论】：

【解决方案2】：

感谢您的建议。经过几次实验，我开发了一种简单且效果很好的方法。我没有使用现有的语料库，而是根据我的多语言数据库中可用的所有话语创建了自己的语料库。无需翻译它们。该数据库有 130,000 个话语，包括 350 万个单词（三种语言：英语、法语和挪威语）和 150,000 个独特的单词。基于以这种方式构建的意义空间的短语相似性效果出奇的好。我已经在生产中测试了这种方法，结果很好。我也看到了很大的改进空间，会继续打磨。我还写了这篇文章An approach to categorize multi-lingual phrases，更详细地描述了所有步骤。欢迎批评或改进。

【讨论】：