句子的向量表达

1.句子的表示 —boolean方法

句子都是用 0/1 表示的，出现的为1，没出现则为 0
例子：假设词典库为
[我们，又，去，爬山，今天，你们，昨天，跑步]

我们 | 今天 | 去 | 爬山
(1, 0, 1, 1, 1, 0, 0, 0)
你们 | 又 | 去| 爬山| 又 | 去| 跑步
(0, 1 ,1, 1, 0, 1, 0, 1 )
注意：虽然 “又” 和"去" 出现了两次，但是boolean表达的时候仍然为1

2.句子的表示 —基于count的表达

例子：假设词典库为
[我们，又，去，爬山，今天，你们，昨天，跑步]

我们 | 今天 | 去 | 爬山
(1, 0, 1, 1, 1, 0, 0, 0)
你们 | 又 | 去| 爬山| 又 | 去| 跑步
(0, 2 ,2, 1, 0, 1, 0, 1 )
注意：“又” 和"去" 出现了两次，所以基于count的表达时为出现的次数2

3.基于count的句表达有什么缺点

比如有几个句表达为：
句子的向量表达
存在的问题是：衡量句子中单词的重要性时，并不是出现的次数越多就越重要，出现的越少就越不重要。

一种解决方案是： tf-idf方法

4.tf - idf 方法

官方定义：
句子的向量表达
说明：

当不考虑式子右边的 idf (w) 时， tf (d, w) 其实求得是基于count的句子表示
加了 idf (w) 一项就是表示单词的重要性。通常我们会觉得句子中某个词出现的次数越多越不重要，如 “the”, “he”。出现频率越小的单词反而越重要。---- 这就是 idf(w) 的思想。
在 idf （w) 项中，log 主要限制 N / N(w) 的大小。N(w) 出现在分母中，表示： w 出现在越少的文档中，单词越重要
tf-idf (w) 是针对一个单词的，对于句子而言，就要计算多个tf-idf(wi)

例子：
句子的向量表达

5.总结

基于one-hot 词或句向量表达最常见的就是上述3种：

boolean句子向量表示
基于count的句子向量表示
tf-idf(w) 的词向量表示

相关文章：

2021-10-22
2021-08-23
2021-10-02
2021-12-03
2021-09-16
2021-06-27
2022-02-03

猜你喜欢

2021-11-05
2021-08-04
2022-01-13
2022-12-23
2021-08-24
2021-07-08
2022-02-11

相关资源

下载 2021-06-05
下载 2023-03-23
下载 2021-06-24

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode