【发布时间】:2018-01-01 19:47:05
【问题描述】:
我在 vba 中编写了一些脚本来解析从 torrent 站点指向下一页的链接。我的脚本能够刮掉它们。但是,我面临的问题是结果中出现了几个重复的链接。我的问题是是否有任何技术可以只解析唯一链接?
Sub TorrentData()
Dim http As New XMLHTTP60, html As New HTMLDocument, post As Object
With http
.Open "GET", "https://yts.ag/browse-movies", False
.send
html.body.innerHTML = .responseText
End With
For Each post In html.getElementsByClassName("tsc_pagination")(0).getElementsByTagName("a")
If InStr(post, "page") > 0 Then
x = x + 1: Cells(x, 1) = post.href
End If
Next post
End Sub
抓取链接的部分图片:
在继续之前请务必检查链接: "https://www.dropbox.com/s/647x3m65u90a1bu/Description1.txt?dl=0"
【问题讨论】:
-
我首先想到的是您可以将链接添加到字典中。在获取输出之前,检查它们是否存在。
-
感谢 Tehscript 的评论。我对字典的用法不太熟悉。我确实找到了解决方法,但这不是我想要的。将在我的帖子中粘贴一个链接。
-
嗨 Tehscript,维护您的建议我尝试在我的脚本中使用字典,它给了我完美的结果。但是问题是我无法重新排列我的脚本以提供更好的外观。这是 FYC 的链接:“dropbox.com/s/n3668q9da9u8qr4/…”
-
您不必循环两次。当您检查它是否存在于字典中时,您可以将链接添加到字典并同时将其写入单元格。
-
这是我从浅见中所能想到的最好的“dropbox.com/s/n3668q9da9u8qr4/…”
标签: vba web-scraping web-crawler