【发布时间】:2015-01-29 14:37:45
【问题描述】:
您好,我正在尝试使用 tm 包来计算我网站中的字数,以估算其翻译成本。
有没有人尝试过使用 R 做类似的事情?
【问题讨论】:
-
就个人而言,我会创建某种类型的数据爬虫而不使用 R。我也希望看到这个问题的答案..
标签: r string text text-mining
您好,我正在尝试使用 tm 包来计算我网站中的字数,以估算其翻译成本。
有没有人尝试过使用 R 做类似的事情?
【问题讨论】:
标签: r string text text-mining
你可以使用stringi包来统计字数:
require(stringri)
stri_stats_latex("Ala ma kota a kot ma Ale.")
CharsWord CharsCmdEnvir CharsWhite Words Cmds Envirs
18 0 7 7 0 0
【讨论】:
你的问题很广泛,你还没有展示你试图做什么。你也没有说你的网站有多少页面(或给出它的 URL),但如果它是一个可管理的数字,你可以这样做:
使用RCurl 或httr 包从每个页面抓取所有内容。
然后使用 tm 包删除所有 HTML 代码(或 qdap 可能会有所帮助)
将剩余的文本转换为语料库和术语文档矩阵(tdm)。
使用 tdm,nTerms(tdm) 会告诉你字数
【讨论】: