句子的唯一 ID答案

【问题标题】：Unique ID for sentence句子的唯一 ID
【发布时间】：2018-12-05 15:02:39
【问题描述】：

我提供了数百个所有不同语言（unicode）的文本 sn-ps。我需要为每个句子分配一个唯一的 ID，以便我可以训练 ML 算法。我编写了自己的算法，大约有 30k 重复数字。然后我找到了这个解决方案：

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

但显然 int 对于 numpy 来说太大了，它会抛出一个

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

当我尝试拟合数据时。是否有其他方法可以获取唯一 ID 或防止 valueerror 发生？

【问题讨论】：

【解决方案1】：

import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))

【讨论】：