【问题标题】:phrases extraction with R用 R 提取短语
【发布时间】:2017-02-15 22:58:41
【问题描述】:

我正在尝试为电影评论提取情感极性,因此为此从标记文本(使用 treetagger)中提取所有标签为 (ADV - VER:pper) 或 (VER:pres) 的二元组- 调整)。例如,在下面的示例中,提取的短语列表是:bien suivi, est efficace。

你能帮忙吗?

提前谢谢你

Database <- read.table("exp.txt", header = FALSE)
Database



          V1       V2         V3

1     Toujours      ADV   toujours
2         bien      ADV       bien
3        suivi VER:pper     suivre
4          par      PRP        par
5          mon  DET:POS        mon
6   conseiller      NOM conseiller
7          Bon      NAM  <unknown>
8      accueil      NOM    accueil
9            ,      PUN          ,
10          ma  DET:POS        mon
11 conseillère      NOM conseiller
12         est VER:pres       être
13    efficace      ADJ   efficace
14          et      KON         et
15           à      PRP          à
16          l'  DET:ART         le
17      écoute      NOM     écoute
18           .                 

【问题讨论】:

  • 我认为您的想法类似于以下内容。 df &lt;- data.frame(a=rep(c("a","b","c"),3),b=1:9)df[df$a %in% c("b","c"),]。我建议你花点时间学习 R。
  • @DJJ 好的,谢谢,我会的:)

标签: r nlp text-mining


【解决方案1】:

我们可以使用dplyr 来完成您所需要的:

library(dplyr)

Database %>% 
    mutate(NV1 = lead(V1), NV2 = lead(V2)) %>% 
    filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>%
    transmute(result = paste(V1, NV1))

#       result
#   bien suivi
# est efficace

请注意,这不是非常可扩展的,因为您必须键入您需要的任何条件,但这是一个开始并且可能适合您的需要的东西

【讨论】:

  • 是否可以将结果保存在变量中?
  • 没问题,最后加-&gt; result
猜你喜欢
  • 2013-09-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-01-31
  • 1970-01-01
  • 1970-01-01
  • 2017-10-16
  • 2017-06-21
相关资源
最近更新 更多