【发布时间】:2009-08-07 09:27:25
【问题描述】:
我刚刚开始学习 Ruby。很酷的语言,很喜欢。
我正在使用非常方便的 Hpricot HTML 解析器。
我要做的是从页面中获取所有文本,不包括 HTML 标记。
例子:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Data Protection Checks</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<div>
This is what I want to grab.
</div>
<p>
I also want to grab this text
</p>
</body>
</html>
我基本上只想抓取文本,所以我最终得到了这样的字符串:
“这是我要抓取的,我也想抓取这段文字”
最好的方法是什么?
干杯
伊夫
【问题讨论】: