从社交资料中提取用户兴趣答案

【问题标题】：Extracting user interests from social profiles从社交资料中提取用户兴趣
【发布时间】：2012-03-04 03:30:11
【问题描述】：

这是我第一次涉足 NLP，所以请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/喜欢/爱好的方法。这是一个示例，其中所有兴趣/喜欢/爱好都以粗体显示：

“我认为自己是一个非常多元化的角色......我是一名专业人士 摔跤手，但我会为 Wall•E 吃一颗子弹。我在体育馆中训练得像一台单人种族灭绝机器，但我哭了 “世界末日。”我会全力以赴 AC/DC，我是认真的考虑获得塞尔达传说纹身。我对 420 友好。一世喜欢与兄弟会的人群聚会一晚，一起出去玩我的Burning Man朋友接下来玩Halo和World of 下一个是魔兽，然后和不比他们年轻的朋友一起玩 40下。我最小的朋友 16 岁，我最大的朋友 66 岁。我会在酒吧唱卡拉OK，我是我朋友的集体心理医生/肩膀。”

配置文件是纯文本。没有任何关联的元标记或 ID，它只是一段文本。

我幼稚的想法是将每个名词与Freebase 进行匹配，以查看它是否是活动/艺术家/电影/书籍等。问题是，尽管提到的大多数实体都是用户喜欢的东西，但她也会提到她不喜欢的东西，我无法区分两者。

我有两个问题：

我应该关注 NLP 的哪个子领域？非常感谢一些可在 Google 上搜索的算法/技术/作者。
这个问题有多难？

谢谢！

【问题讨论】：

标签： nlp machine-learning extraction information-extraction

【解决方案1】：

首先，除非使用 NLP 来做这件事对您来说是一个特定目标，否则请检查您的问题领域，看看您是否可以完全避免它。

例如：

这些配置文件是否有标签（由网站或用户）？
Site's API 提供了什么（假设您通过这种方式访问这些数据；如果您正在抓取它，那么这当然不适用）？一个很好的例子，Facebook。如果您阅读用户的帖子，您会看到“摔跤手”、“卡拉 OK”等词，但如果您查看通过 Graph API 公开了哪些字段，您会发现这些活动几乎总是有一个关联的 FB身份证。

我不是该领域的专家，但我可以推荐一些针对 NLP 的资源，非专家或新手也可以使用这些资源。第一个是text processing API。这个简单的 Web 服务使用 REST 和 JSON IO。它是免费的，而且似乎有一个相当大的速率限制。

这个 API 似乎在很大程度上依赖于优秀的 Natural Language Tooolkit (NLTK)，这是一个成熟的 python 稳定库，其中包括针对问题中问题的模块，例如，情感分析、标记和块提取等。

哪个特定子域与解决 OP 中的问题最相关？我不知道，但我怀疑 NLTK 中有一个模块可以满足您的需求。希望找到该模块只是浏览API Documentation（按模块组织）的问题；阅读 Getting Started 部分，其中包含对 NLTK 模块的出色调查以及每个模块的演示。

【讨论】：

不幸的是没有标签或api。它实际上是文本的段落。感谢 NLTK 提示，我喜欢 python。我去看看。