【问题标题】:Unique ID for sentence句子的唯一 ID
【发布时间】:2018-12-05 15:02:39
【问题描述】:

我提供了数百个所有不同语言(unicode)的文本 sn-ps。我需要为每个句子分配一个唯一的 ID,以便我可以训练 ML 算法。我编写了自己的算法,大约有 30k 重复数字。然后我找到了这个解决方案:

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

但显然 int 对于 numpy 来说太大了,它会抛出一个

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

当我尝试拟合数据时。是否有其他方法可以获取唯一 ID 或防止 valueerror 发生?

【问题讨论】:

  • 为什么不只列举句子(即给它们从 1 到 N 的数字)?

标签: python-3.x numpy machine-learning scikit-learn


【解决方案1】:
import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-01-03
    • 1970-01-01
    • 2020-05-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多