【问题标题】:Twython not importing only English Tweets?Twython 不只导入英文推文?
【发布时间】:2017-08-02 16:17:02
【问题描述】:

我正在使用 this 方法,但是当我尝试使用 lang="en" 指定英语时,我能想到的所有其他变体都不起作用。这就是我要输入的内容(即使使用关键字来进一步限制它),它仍然不只是给我英语。我尝试过使用和不使用关键字。我正在尝试为一个研究项目构建一个只有英语的 200,000 多条推文可搜索控制语料库,我不想手动浏览那么多推文。想法?

>>> from nltk.twitter import Twitter
>>> tw = Twitter()
>>> tw.tweets(keywords='Delicacy, reptile, death, hold, dark, column, gifted, surgeon, brave, fashion, pearl, diamond, bent, sparkle, present, missing, shadow, holiday, glide, scanner, luster, immunity, devour, discipline, barbaric, fortunate, heart, puzzle, ache, crystal', 
        limit=10000, lang="en", to_screen=False)
Writing to /Users/rhiannalavalla/twitter-files/tweets.20170521-235221.json
Written 10000 Tweets

【问题讨论】:

    标签: python twitter nltk twython


    【解决方案1】:

    lang 选项被传递给推特 search API,因此您请求的是“英文”推文。但是你用过推特吗?您不必声明每条推文的语言,因此 twitter 不能准确地限制您的结果。 lang 选项显然与作者为其 UI 选择的语言相匹配,而不是单个推文的语言。

    要将您的结果限制为英语推文,请按可能仅对英语使用者感兴趣的主题标签和/或用户 ID 进行搜索(具体取决于您的语料库的用途)。或者(或者另外),您可以尝试使用自动语言识别算法来过滤掉可疑的推文。 nltk 带有 langid 语言三元组统计语料库,您可以使用它来训练识别器。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多