《命令行中的数据科学》真心不错,早一点看到,可以少走很多弯路。

1.解压缩 tar -zxvf 等

7z x         *.7z
tar -xvjf    *.tar.bz2
bunzip2   *.bz2
tar -xvf     *.tar.gz
unrar x     *.rar
unzip        *.zip
gunzip      *.gz

2. 微软excel表格转换 in2csv

in2csv data/imdb-250.xlsx > data/imdb-250.csv

3. 从互联网下载数据 curl 

curl -s http://www.cnblogs.com/jkmiao/p/5105513.html -o my_html_1.html

curl -s 取消进度条

curl -u username:password ftp://host/file

cur -L 自动跟踪重定向

curl -I 只获取响应信息头部

 

4.  管道结合使用

curl -s http://www.cnblogs.com/jkmiao/p/5105513.html | tr '[:upper:]' '[:lower:]' | grep -oE '\w+' |
sort | uniq -c | sort -nr | head -n 10

 5. 文本清洗过滤

$ seq -f "LIne %g" 100 | tee lines

// 输出前5行
$ < lines  head -n 5
$ < lines  lines sed -n '1,5p'
$ < lines  awk 'NR<=5'

linux 重定向说明:

http://baike.baidu.com/link?url=A6cpsb2JF3XqkFgHqHUmJujCHWdVGIIscHZ9ZsG6U1WQabLyvT6o0EVBlw_arwdMSOZjbSYG4QUvacyGmKYPCq

相关文章:

  • 2021-09-19
  • 2022-02-24
  • 2021-06-05
  • 2022-12-23
  • 2021-04-09
  • 2021-05-07
  • 2021-06-28
猜你喜欢
  • 2021-08-04
  • 2021-10-01
  • 2021-06-19
  • 2021-12-21
  • 2021-07-01
  • 2022-12-23
  • 2021-10-28
相关资源
相似解决方案