【发布时间】:2019-05-13 14:04:06
【问题描述】:
我正在构建一个机器学习推荐系统,用于将候选人与职位信息进行匹配。
我有两个数据集。一个包含职位发布,另一个包含候选人。招聘信息最初是从瑞典失业机构以瑞典语检索的。我编写了一个 Python 脚本来将这些招聘信息翻译成英文。每个职位发布都有一个标题和描述,这是从 1 到 20 个句子的任何类型的文本。描述字段包含职责、所需技能以及职位发布的所有其他内容。
另一方面,包含候选人的数据集包含每个候选人的年龄、教育程度、以前的经验、知识和技能。每个候选人最多有六种技能。收集数据集中的所有技能,并且数据集是热编码的,这意味着我为每个可能的技能创建了一个列,并根据用户对技能的了解将其标记为 0 或 1。
现在我需要准备一些数据来训练模型。我已经将候选人分成训练和测试集。我现在必须找到一种方法,以某种方式从职位描述中提取关键字,并将它们与候选人的技能进行比较。从提取和定义关键字到在每个职位发布中交叉检查每个候选人,您是否有任何想法?
任何帮助将不胜感激!
干杯!
【问题讨论】:
-
对于关键字,您是否已经有一个预先确定的列表或者算法应该“学习”选择这些关键字?我会根据您的需要推荐本教程:datacamp.com/community/tutorials/recommender-systems-python
-
你好乔丹,感谢您的评论。不,我没有列表,但我认为最好定义一个。我会看一下链接。谢谢。
-
您好 Jordans,我只是想让您知道,我查看了您发送的链接。它描述了推荐系统,但没有应用学习。总之,谢谢!
标签: python csv machine-learning recommendation-engine