【发布时间】:2012-03-04 03:30:11
【问题描述】:
这是我第一次涉足 NLP,所以请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/喜欢/爱好的方法。这是一个示例,其中所有兴趣/喜欢/爱好都以粗体显示:
“我认为自己是一个非常多元化的角色......我是一名专业人士 摔跤手,但我会为 Wall•E 吃一颗子弹。我在体育馆中训练得像一台单人种族灭绝机器,但我哭了 “世界末日。”我会全力以赴 AC/DC,我是认真的 考虑获得塞尔达传说纹身。我对 420 友好。一世 喜欢与兄弟会的人群聚会一晚,一起出去玩 我的Burning Man朋友接下来玩Halo和World of 下一个是魔兽,然后和不比他们年轻的朋友一起玩 40下。我最小的朋友 16 岁,我最大的朋友 66 岁。我会 在酒吧唱卡拉OK,我是我朋友的集体 心理医生/肩膀。”
配置文件是纯文本。没有任何关联的元标记或 ID,它只是一段文本。
我幼稚的想法是将每个名词与Freebase 进行匹配,以查看它是否是活动/艺术家/电影/书籍等。问题是,尽管提到的大多数实体都是用户喜欢的东西,但她也会提到她不喜欢的东西,我无法区分两者。
我有两个问题:
- 我应该关注 NLP 的哪个子领域?非常感谢一些可在 Google 上搜索的算法/技术/作者。
- 这个问题有多难?
谢谢!
【问题讨论】:
标签: nlp machine-learning extraction information-extraction