【问题标题】:How to count the number of words in a website using tm package with R?如何使用带有 R 的 tm 包计算网站中的单词数?
【发布时间】:2015-01-29 14:37:45
【问题描述】:

您好,我正在尝试使用 tm 包来计算我网站中的字数,以估算其翻译成本。

有没有人尝试过使用 R 做类似的事情?

【问题讨论】:

  • 就个人而言,我会创建某种类型的数据爬虫而不使用 R。我也希望看到这个问题的答案..

标签: r string text text-mining


【解决方案1】:

你可以使用stringi包来统计字数:

require(stringri)
stri_stats_latex("Ala ma kota a kot ma Ale.")
    CharsWord CharsCmdEnvir    CharsWhite         Words          Cmds        Envirs 
           18             0             7             7             0             0 

【讨论】:

  • 我将在此示例中添加删除停用词,这些停用词在翻译成本中并未真正考虑在内。
【解决方案2】:

你的问题很广泛,你还没有展示你试图做什么。你也没有说你的网站有多少页面(或给出它的 URL),但如果它是一个可管理的数字,你可以这样做:

使用RCurlhttr 包从每个页面抓取所有内容。

然后使用 tm 包删除所有 HTML 代码(或 qdap 可能会有所帮助)

将剩余的文本转换为语料库和术语文档矩阵(tdm)。

使用 tdm,nTerms(tdm) 会告诉你字数

【讨论】:

  • 谢谢,我试试这个
  • 祝你好运!将您的代码发布为编辑,其他人无疑会改进这些想法。你展示的越多,你得到的帮助就越多。
  • 如果这符合您的需求,请考虑接受它作为答案。
猜你喜欢
  • 2019-12-12
  • 1970-01-01
  • 2021-09-27
  • 1970-01-01
  • 2019-05-21
  • 2014-07-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多