【发布时间】:2011-07-01 03:43:38
【问题描述】:
我有一个包含两列的文件,一列具有 HTTP 对象的内容类型,例如 text/html、application/rar 等,另一列具有字节大小。
Content Type Size
video/x-flv 100
image/jpeg 150
text/html 160
application/octet-stream 200
application/x-shockwave-flash ...
text/plain
application/x-javascript
text/xml
text/css
text/html; charset=utf-8
application/x-javascript; charset=utf-8 ...
如您所见,同一内容类型有许多变体,例如application/x-javascript 和application/x-javascript; charset=utf-8 等。所以,我想创建另一个列来更一般地对它们进行分类。所以,这两个就是web/javascript等等。
Content Type Size Category
video/x-flv 100 web/video
image/jpeg 150 web/image
text/html 160 web/html
application/octet-stream 200 web/binary
application/x-shockwave-flash ... web/flash
text/plain web/plaintext
application/x-javascript web/javascript
video/x-msvideo web/video
text/xml web/xml
text/css web/css
text/html; charset=utf-8 web/html
video/quicktime web/video
application/x-javascript; charset=utf-8 web/javascript
我将如何在 R 中完成此操作,并且我认为我需要为此使用某种正则表达式?
【问题讨论】:
-
我不确定我是否正确理解了这一点...您想使用正则表达式创建第三列,其中包含...究竟是什么?能不能说的详细点?
-
好吧,我将在内容类型字段中给出更一般的类别,例如在示例 video/x-flv、video/quicktime 等中,通过搜索都属于一个类别“web/video”列中的文本“视频”。同样,搜索“javascript”并将其放入第 3 列的“web/javascript”中。所以,我认为搜索这些关键字需要正则表达式。
-
我只需要知道如何搜索和映射相关类别。