【发布时间】:2021-08-22 14:32:29
【问题描述】:
我正在研究一个抓取脚本,并发现了 Set 对象,它应该存储唯一的数据并且性能快速。所以我就这样试了
let scrapedMessages = new Set()
scrapedMessages.add({
text,
...(images.length > 0 && {
images,
}),
senderID,
timestamp,
})
但是在查看抓取的数据时,我发现了这些类型的重复数据
{
"text": "Acne Fighting Facial Wash With Jojoba Beads",
"senderID": "361571627329333",
"timestamp": "1613017270619"
},
{
"text": "Acne Fighting Facial Wash With Jojoba Beads",
"senderID": "361571627329333",
"timestamp": "1613017270619"
}
这是否意味着对象集可能不是唯一的,或者我犯了一些错误。我是通过简单的数组来做的。但为了获得更好的性能,改为设置类型。可以实现吗?最佳做法是什么?
我正在 Nodejs 上运行 puppeteer 脚本。
【问题讨论】:
-
对象不是通过内容来比较的,而是通过对象的标识来比较的。
-
这可能会有所帮助:stackoverflow.com/a/29759699/2358409
标签: javascript node.js web-scraping puppeteer