考虑典型的文本分类,一个经典的方法就是

   

  1. 分词,扫描所有特征,建立特征词典
  2. 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
  3. 学习参数 w
  4. 存储学习参数 w , 存储特征映射词典
  5. 预测截断装载学习参数w,装载特征映射词典
  6. 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量
  7. 利用用学习参数w 对得到的特征向量 进行 点积 做出预测

   

   

Feature hashing怎么做?

不使用特征词典了,不用考虑额外的存储词典的空间,直接对特征进行hash编号。

有冲突? 后面会说明对效果影响不大!

   

   

Feature hashing相关 - 1

   

Feature hashing相关 - 1

同样的内存占用下 我们可以存储更多的weights!

   

相关文章:

  • 2022-12-23
  • 2021-08-08
  • 2021-12-18
  • 2021-09-25
  • 2022-12-23
  • 2022-01-03
  • 2021-07-16
猜你喜欢
  • 2021-12-10
  • 2022-02-14
  • 2022-01-16
  • 2021-11-25
  • 2021-08-30
  • 2021-07-16
相关资源
相似解决方案