【发布时间】:2017-04-19 19:01:57
【问题描述】:
我正在学习网络抓取。我掌握了一堆数据,但结构混乱。
我有一个这种形式的字符串向量:"9,55< U+00A0>x< U+00A0>1016",(现在当我写它时,我认为这是一种特殊的语法,因为如果不在“U”之前放置一个空格,我就无法将它粘贴到这里)
在我正在抓取的网站上写为“9,55*10^16”。
从长远来看,我的目标是将这个字符串变成一个数字变量,即 95500000000000000。 但首先我想删除第一个“”之间的所有内容。 以下是我的尝试。
gsub("<(.*?)>", "", vectorOfStrings)
编辑:最好在 R 中使用"9,55\U{00A0}x\U{00A0}1016" 生成字符串,因为“”不是字符串中的实际文字。
【问题讨论】:
-
这是什么语言?什么是 gsub()?
-
@MrJLP:它是“R”语言。
gsub是正则表达式搜索/替换函数。 -
如果你使用 php 做 preg_replace javascript 做 //g 需要注意的是,有时他们不做 但 <和>也许对于 R 语言你需要做 //g
-
这是R programming language,不是 PHP。
-
所以试试 gsub("//g", "", vecorOfSrings) //g 代表全局
标签: r regex web-scraping gsub