【发布时间】:2020-08-05 20:24:23
【问题描述】:
我是学习 NLP 的新手。我正在尝试寻找最匹配的简历。
例如,我有一个我正在寻找的技能列表,例如 ['java'、'python'、'SQL'、'API'、...] 和一组文档。我想创建一个模型来找到与这些技能最匹配的文档。类似于简历匹配。
我从本教程开始 - Extracting words from pdf 作为参考
我能够从 pdf 中提取文本,删除停用词,执行词形还原,计算这些关键字在每个文档中出现的次数,但我不知道如何从这里开始。
谁能告诉我接下来的步骤应该是什么?任何教程或参考资料也会有所帮助。
【问题讨论】:
-
查找匹配是一个非常主观的目标。我首先要考虑的是定义匹配的含义,或者根据您找到的信息对简历进行排名的方法。例如,排名的一种方式是根据列表中任何单词出现在简历中的总次数。此外,您还可以考虑出现的各种单词(即,您不希望任何人在简历中只显示 python 100 次)。
-
@TYZ,我完全同意——我认为你的意思是这是一个非常“主观”的目标。定义良好匹配的方法很多。
-
@blacksite 哈哈,我的错,刚刚修好了。原谅我糟糕的英语,我永远不会正确。
-
@TYZ 我也同意你的看法。在这里,我正在寻找与技能集有最大交集的文档,如果文档具有相同的交集但很少,则单词出现多次,那么应该给予更多的优先权。