【发布时间】:2015-05-07 18:34:04
【问题描述】:
如标题所述。我需要返回 html 文档的 body 标签中的所有内容,包括任何后续的 html 标签等。我很想知道最好的方法是什么。我有一个使用 Gokogiri 包的工作解决方案,但是我试图远离任何依赖 C 库的包。 go标准库有没有办法做到这一点?还是使用 100% 成功的包裹?
自从发布我最初的问题以来,我尝试使用以下未产生任何解决方案的软件包。 (两者似乎都不会从正文中返回后续子项或嵌套标签。例如:
<!DOCTYPE html>
<html>
<head>
<title>
Title of the document
</title>
</head>
<body>
body content
<p>more content</p>
</body>
</html>
将返回正文内容,忽略随后的<p> 标签和它们换行的文本):
- pkg/encoding/xml/(标准库xml包)
- golang.org/x/net/html
总体目标是获得如下所示的字符串或内容:
<body>
body content
<p>more content</p>
</body>
【问题讨论】:
-
我很确定标准 xml 包可以做到这一点。如果没有,请尝试 goquery github.com/PuerkitoBio/goquery
-
@Not_a_Golfer 我尝试使用标准 XML 包,但是我无法让它以字符串形式读取正文中的子/嵌套标签。例如:
文档标题 正文内容更多内容
将返回正文内容,忽略随后的标记及其包装的文本。
-
你可以试试
golang.org/x/net/html包。 -
@DaveC 我也一直在尝试这个。对于我的生活,我无法让它以我期望的方式返回嵌套标签。在我对 Not_a_Golfer 的回复中也是同样的问题
-
@user2737876 您可能应该edit 将问题包含在您的第一条评论中。