遍历网页并下载 PDF答案

【问题标题】：Iterate through web pages and download PDFs遍历网页并下载 PDF
【发布时间】：2019-12-27 09:02:52
【问题描述】：

我有一个代码用于抓取网页上的所有 PDF 文件并将它们下载到文件夹中。但是现在它开始出现错误：

System.NullReferenceException HResult=0x80004003 消息=对象引用未设置为对象的实例。来源=NW 爬虫
StackTrace：在 NW_Crawler.Program.Main(String[] args) 中 C:\Users\PC\source\repos\NW Crawler\NW Crawler\Program.cs:line 16

在foreach (HtmlNode src in ProductListPage) 中指向ProductListPage

有关于如何解决此问题的任何提示吗？我试图实现异步/等待但没有成功。也许我做错了什么......

这是要完成的过程：

转到https://www.nordicwater.com/products/waste-water/
列出部分（相关产品）中的所有链接。他们是：<a class="ap-area-link" href="https://www.nordicwater.com/product/mrs-meva-multi-rake-screen/">MRS MEVA multi rake screen</a>

转到每个链接并搜索 PDF 文件。 PDF 文件位于：

                <div class="dl-items">
<a href="https://www.nordicwater.com/wp-content/uploads/2016/04/S1126-MRS-brochure-EN.pdf" download="">

这是我的完整测试代码：

using HtmlAgilityPack;
using System;
using System.Net;


namespace NW_Crawler
{
    class Program
    {
        static void Main(string[] args)
        {

            {
                HtmlDocument htmlDoc = new HtmlWeb().Load("https://www.nordicwater.com/products/waste-water/");
                HtmlNodeCollection ProductListPage = htmlDoc.DocumentNode.SelectNodes("//a[@class='ap-area-link']//a");
                Console.WriteLine("Here are the links:" + ProductListPage);
                foreach (HtmlNode src in ProductListPage)
                {
                    htmlDoc = new HtmlWeb().Load(src.Attributes["href"].Value);

                    // Thread.Sleep(5000); // wait some time

                    HtmlNodeCollection LinkTester = htmlDoc.DocumentNode.SelectNodes("//div[@class='dl-items']//a");
                    if (LinkTester != null)
                    {
                        foreach (var dllink in LinkTester)
                        {
                            string LinkURL = dllink.Attributes["href"].Value;
                            Console.WriteLine(LinkURL);

                            string ExtractFilename = LinkURL.Substring(LinkURL.LastIndexOf("/"));
                            var DLClient = new WebClient();

                            // Thread.Sleep(5000); // wait some time

                            DLClient.DownloadFileAsync(new Uri(LinkURL), @"C:\temp\" + ExtractFilename);
                        }
                    }
                }
            }

        }
    }
}

【问题讨论】：

你检查过ProductListPage是否不为空吗？
您的意思是添加Console.WriteLine("Here are the links:" + ProductListPage);？ Yes 看起来像 null，但为什么呢？
试试这个 xpath：//a[@class='ap-area-link'] 在您共享的链接中，您没有另一个嵌套锚点。

标签： c# web-scraping web-crawler html-agility-pack

【解决方案1】：

进行了一些更改以涵盖您可能会看到的错误。

变化

使用src.GetAttributeValue("href", string.Empty) 而不是src.Attribute["href"].Value;。如果 href 不存在或为 null，您将得到 Object Reference Not Set to an object 的实例
检查ProductListPage 是否有效且不为空。
ExtractFileName 在名称中包含 /。您想在子字符串方法中使用 + 1 来跳过“Last / from index of)”。
如果任一循环中的 href 为 null，则继续进行下一次迭代
将产品列表查询从 //a[@class='ap-area-link']//a 更改为 //a[@class='ap-area-link']。您在<a> 标记中搜索<a>，该标记为空。不过，如果您想以这种方式查询它，第一个 IF 语句来检查 ProductListPage != null 是否会处理错误。

    HtmlDocument htmlDoc = new HtmlWeb().Load("https://www.nordicwater.com/products/waste-water/");
    HtmlNodeCollection ProductListPage = htmlDoc.DocumentNode.SelectNodes("//a[@class='ap-area-link']");
    if (ProductListPage != null)
        foreach (HtmlNode src in ProductListPage)
        {
            string href = src.GetAttributeValue("href", string.Empty);
            if (string.IsNullOrEmpty(href))
                continue;
            htmlDoc = new HtmlWeb().Load(href);
            HtmlNodeCollection LinkTester = htmlDoc.DocumentNode.SelectNodes("//div[@class='dl-items']//a");
            if (LinkTester != null)
                foreach (var dllink in LinkTester)
                {
                    string LinkURL = dllink.GetAttributeValue("href", string.Empty);
                    if (string.IsNullOrEmpty(LinkURL))
                        continue;
                    string ExtractFilename = LinkURL.Substring(LinkURL.LastIndexOf("/") + 1);
                    new WebClient().DownloadFileAsync(new Uri(LinkURL), @"C:\temp\" + ExtractFilename);
                }
        }

【讨论】：

你能添加你的答案吗？我不小心删除了我的问题 - 评论。为什么 VPN 可能会出现问题？
如果您的 VPN 网络不允许访问该网站，您将根据 SelectNodes 查询获得 ProductListPage 变量的空值。

【解决方案2】：

您使用的 Xpath 似乎不正确。我尝试在浏览器中加载网页并搜索 xpath 并没有得到任何结果。我将其替换为 //a[@class='ap-area-link'] 并能够找到匹配的元素，截图如下。

【讨论】：

好的，那么有一些与 Internet 连接有关的东西。我一直在不同的网站上测试这段代码。当我有快速的互联网连接时，它正在另一个具有正确 XPath 的站点上工作。但是现在我在移动网络上，它一直在丢弃错误。有没有速度或其他的东西？是否应该添加一些等待的代码，或者互联网连接不佳的问题可能出在哪里？
确保页面已加载，如果您遇到意外错误，请“尝试并捕获”它们。
有什么提示吗？