遍历DOM树时Jsoup节点哈希码冲突答案

【问题标题】：Jsoup node hash code collision when traversing DOM tree遍历DOM树时Jsoup节点哈希码冲突
【发布时间】：2015-05-12 07:19:01
【问题描述】：

我正在使用 java jsoup 构建 HTML DOM 树，其中使用了Node.hashCode()。但是我发现在遍历DOM树的时候有很多hash码冲突，使用如下代码：

doc.traverse(new NodeVisitor(){

    @Override
    public void head(Node node, int depth) {

        System.out.println("node hash: "+ node.hashCode());

        /* some other operations */
    }

    @Override
    public void tail(Node node, int depth) {
        // TODO Auto-generated method stub

        /* some codes */
    }
}

因此，当它运行时，即使在前几个输出中，我也会看到许多相同的哈希码。

哈希码非常大，我不希望出现这种奇怪的行为。我使用了 jsoup-1.8.1。任何意见将不胜感激，谢谢。

【问题讨论】：

出于兴趣，节点的内容是否相同？如果 1）哈希是从内容创建的，或者 2）它识别重复以减少内存占用，那将会很有趣。
我使用的html页面来自亚马逊（我想分析他们产品页面中的字段）。我认为每一个在内容方面都是独一无二的。即使有相同内容的节点，也不可能那么多。
您能否提供一些重现此行为的 html 示例？
@alkis ，我可以重现，看我的回答。

标签： java html dom hash jsoup

【解决方案1】：

注意：此错误已在 jSoup 1.8.2 中修复，因此我的回答不再相关。

这可能是 jSoup 源代码中的错误。来自source：

@Override
public int hashCode() {
   int result = parentNode != null ? parentNode.hashCode() : 0;
   // not children, or will block stack as they go back up to parent)
   result = 31 * result + (attributes != null ? attributes.hashCode() : 0);
   return result;
}

我不是 Java 专家，但是如果它们具有相同的属性，这看起来可以为不同的节点返回相同的值。（同样的家长，感谢@alkis 的评论）

编辑：我可以重现这个。使用以下 HTML：

<html>
    <head>
    </head>
    <body>
        <div style="blah">TODO: write content</div>
        <div style="blah">Nothing here</div>
        <p style="test">Empty</p>
        <p style="nothing">Empty</p>
    </body>
</html>

还有如下代码：

String html = //HTML posted above

Document doc = Jsoup.parse(html);

Elements elements = doc.select("[style]");
for (Element e : elements) {
   System.out.println(e.hashCode());
}

它给出：

-148184373
-148184373
-1050420242
2013043377

在计算哈希时似乎完全忽略了内容文本，只有属性是重要的。

您可能应该实施自己的解决方法。

错误报告here。

【讨论】：

显然这两个<div style="blah">TODO: write content</div><div style="blah">Nothing here</div> 具有相同的哈希值。它们具有相同的属性 (style="blah") 和相同的父级。是的，这一定是一个错误。你应该归档。很好的发现。赞一个！
感谢您的报告，我已经解决了这个问题。它将在 jsoup 1.8.2 中