【问题标题】:Extracting user interests from social profiles从社交资料中提取用户兴趣
【发布时间】:2012-03-04 03:30:11
【问题描述】:

这是我第一次涉足 NLP,所以请原谅我的无知。我正在寻找一种从用户的社交资料中提取兴趣/喜欢/爱好的方法。这是一个示例,其中所有兴趣/喜欢/爱好都以粗体显示:

“我认为自己是一个非常多元化的角色......我是一名专业人士 摔跤手,但我会为 Wall•E 吃一颗子弹。我在体育馆中训练得像一台单人种族灭绝机器,但我哭了 “世界末日。”我会全力以赴 AC/DC,我是认真的 考虑获得塞尔达传说纹身。我对 420 友好。一世 喜欢与兄弟会的人群聚会一晚,一起出去玩 我的Burning Man朋友接下来玩HaloWorld of 下一个是魔兽,然后和不比他们年轻的朋友一起玩 40下。我最小的朋友 16 岁,我最大的朋友 66 岁。我会 在酒吧唱卡拉OK,我是我朋友的集体 心理医生/肩膀。”

配置文件是纯文本。没有任何关联的元标记或 ID,它只是一段文本。

我幼稚的想法是将每个名词与Freebase 进行匹配,以查看它是否是活动/艺术家/电影/书籍等。问题是,尽管提到的大多数实体都是用户喜欢的东西,但她也会提到她喜欢的东西,我无法区分两者。

我有两个问题:

  1. 我应该关注 NLP 的哪个子领域?非常感谢一些可在 Google 上搜索的算法/技术/作者。
  2. 这个问题有多难?

谢谢!

【问题讨论】:

    标签: nlp machine-learning extraction information-extraction


    【解决方案1】:

    首先,除非使用 NLP 来做这件事对您来说是一个特定目标,否则请检查您的问题领域,看看您是否可以完全避免它。

    例如:

    • 这些配置文件是否有标签(由网站或 用户)?

    • Site's API 提供了什么(假设您通过这种方式访问​​这些数据;如果您正在抓取它,那么这当然不适用)?一个很好的例子,Facebook。如果您阅读用户的帖子,您会看到“摔跤手”、“卡拉 OK”等词,但如果您查看通过 Graph API 公开了哪些字段,您会发现这些活动几乎总是有一个关联的 FB身份证。

    我不是该领域的专家,但我可以推荐一些针对 NLP 的资源,非专家或新手也可以使用这些资源。第一个是text processing API。这个简单的 Web 服务使用 REST 和 JSON IO。它是免费的,而且似乎有一个相当大的速率限制。

    这个 API 似乎在很大程度上依赖于优秀的 Natural Language Tooolkit (NLTK),这是一个成熟的 python 稳定库,其中包括针对问题中问题的模块,例如,情感分析、标记和块提取等。

    哪个特定子域与解决 OP 中的问题最相关?我不知道,但我怀疑 NLTK 中有一个模块可以满足您的需求。希望找到该模块只是浏览API Documentation(按模块组织)的问题;阅读 Getting Started 部分,其中包含对 NLTK 模块的出色调查以及每个模块的演示。

    【讨论】:

    • 不幸的是没有标签或api。它实际上是文本的段落。感谢 NLTK 提示,我喜欢 python。我去看看。
    猜你喜欢
    • 1970-01-01
    • 2012-09-19
    • 1970-01-01
    • 2021-01-05
    • 1970-01-01
    • 2011-12-01
    • 2012-07-13
    • 2017-04-29
    • 1970-01-01
    相关资源
    最近更新 更多