【发布时间】:2021-12-11 08:45:36
【问题描述】:
我正在尝试使用 Nokogiri 获取页面的完整 HTML,但删除了所有文本。
我试过这个:
require 'nokogiri'
x = "<html> <body> <div class='example'><span>Hello</span></div></body></html>"
y = Nokogiri::HTML.parse(x).xpath("//*[not(text())]").each { |a| a.children.remove }
puts y.to_s
这个输出:
<div class="example"></div>
我也试过不带children.remove 部分运行它:
y = Nokogiri::HTML.parse(x).xpath("//*[not(text())]")
puts y.to_s
然后我得到:
<div class="example"><span>Hello</span></div>
但我真正想要的是:
<html><body><div class='example'><span></span></div></body></html>
【问题讨论】:
标签: ruby web-scraping xpath html-parsing nokogiri