【发布时间】:2016-11-17 12:05:41
【问题描述】:
我已经看到了很多解决方案,但是它们都适用于 Mongo v2,不适合 V3。
我的文档如下所示:
{
"_id" : ObjectId("582c98667d81e1d0270cb3e9"),
"asin" : "B01MTKPJT1",
"url" : "https://www.amazon.com/Trump-President-Presidential-Victory-T-Shirt/dp/B01MTKPJT1%3FSubscriptionId%3DAKIAIVCW62S7NTZ2U2AQ%26tag%3Dselfbalancingscooters-21%26linkCode%3Dxm2%26camp%3D2025%26creative%3D165953%26creativeASIN%3DB01MTKPJT1",
"image" : "http://ecx.images-amazon.com/images/I/41RvN8ud6UL.jpg",
"salesRank" : NumberInt(442137),
"title" : "Trump Wins 45th President Presidential Victory T-Shirt",
"brand" : "\"Getting Political On Me\"",
"favourite" : false,
"createdAt" : ISODate("2016-11-16T17:33:26.763+0000"),
"updatedAt" : ISODate("2016-11-16T17:33:26.763+0000")
}
我的收藏包含大约 50 万份文档。我想删除所有 ASIN 相同的重复文档(1 个除外)
我怎样才能做到这一点?
【问题讨论】:
-
你试过这个answer吗?
-
@chridam 我不喜欢这个答案。这不是要走的路(
-
您打算保留哪个文件?最后创建或更新?
-
@Styvane 说实话并不重要,因为其余部分的内容是相同的(除了 id、createdAt、updatedAt)
-
@Styvane 考虑到 OP 的数据库大小,这不是最好的,但排序的概念就足够了。可以通过利用 Bulk API 方法而不是集合的
remove()方法来更好地优化。
标签: mongodb mongodb-query aggregation-framework