【发布时间】:2017-05-23 17:59:15
【问题描述】:
我有一个 python 脚本定期抓取网页列表中的 cmets 并将它们插入数据库。但它只插入一条评论,它还没有在数据库中。将每个评论的哈希值及其正文存储起来以便在下次我需要检查它是否已被插入时能够更快地查找它有多可行?而不是只讲述他们的身体并逐字比较?如果它更快,我应该使用什么样的哈希? Md5 还是 ....?
平均评论约 1000 字。我知道即使是单个字符差异也会导致不同的哈希值,这没关系。
【问题讨论】:
标签: python algorithm python-3.x hash text-processing