【发布时间】:2015-09-24 23:33:18
【问题描述】:
我有一个与机器学习任务相关的问题。问题是根据字符串向量预测一个值。想到的最直接的想法是使用线性回归。然而,由于我的输入是非数字的,我想我会使用我的字符串的哈希码,但我在这里的某个地方读到结果将毫无意义。另一个想法是使用字母表中的字母位置以 26 为基数对我的字符串进行编码,但我尚未对其进行测试,因此寻求建议。
有人可以推荐一种好的(有意义的)编码字符串的方法,以便它们可以用于线性回归算法吗?或者建议另一种适合该任务的机器学习算法。
总结一下:分类器的输入将由一个固定大小的字符串数组组成(数组是固定长度的,不是字符串),输出应该是一个 0-100 范围内的整数。训练数据将由此类输入数组(x 值)和相应数字(y 值)的集合组成。
【问题讨论】:
-
马尔可夫链?如果你不能按照作业的要求计算出含义,你将如何实现一些有用的东西?
-
感谢您的回复。这不是作业,这是我自己的项目
-
输出类的这个整数值代表什么?它与输入数据有何关联?
-
输入是从文本中提取的一组关键词,值是文本的分数。这个想法是找出分数如何与文本中的关键字集相关联。分数是客观分配的。
标签: string algorithm hash machine-learning linear-regression