wget http://www.baidu.com

cat index.html | sed 's/[^a-zA-Z0-9[:punct:]]//g' | grep -v '^$'

 

过滤index.html的中文

相关文章: