【发布时间】:2018-12-05 15:02:39
【问题描述】:
我提供了数百个所有不同语言(unicode)的文本 sn-ps。我需要为每个句子分配一个唯一的 ID,以便我可以训练 ML 算法。我编写了自己的算法,大约有 30k 重复数字。然后我找到了这个解决方案:
def remapWord(word):
return int.from_bytes(word.encode(), 'little')
但显然 int 对于 numpy 来说太大了,它会抛出一个
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
当我尝试拟合数据时。是否有其他方法可以获取唯一 ID 或防止 valueerror 发生?
【问题讨论】:
-
为什么不只列举句子(即给它们从 1 到 N 的数字)?
标签: python-3.x numpy machine-learning scikit-learn