【发布时间】:2022-01-10 01:02:35
【问题描述】:
我有一个包含数千条话语的数据库。每条记录(话语)都是代表问题描述的文本,用户已将其提交给服务台。有时还包括服务台代理的响应。该语言技术性很强,它包含三种类型的标记:
- 语言 1 中的单词和短语(例如英语)
- 语言 2 中的单词和短语(例如法语、挪威语或意大利语)
- 机器生成的输出(例如,使用 unix 命令 ls -la 列出文件)
这些语言混杂在一起。我经常看到,在一次对话中,语言 1 的句子后面跟着语言 2。因此无法将数据分成两个单独的集合,对应于两种语言的话语。
任务是找到记录之间的相似性(问题描述)。本练习的目的是了解用户提交的某些 bug 是否彼此相似。
问:在这种情况下进行的标准方法是什么?
特别是,问题在于这些词来自两个不同的语料库(语料库),此外,一些技术词(如文件名、操作系统路径或应用程序名称)在任何语料库中都找不到。
【问题讨论】:
标签: nlp spacy word2vec bert-language-model sentence-similarity