【发布时间】:2021-12-31 00:32:28
【问题描述】:
NLP 中的 Tokenization 和 Segmentation 有什么区别。我搜索了它们,但我并没有真正发现任何差异 .
【问题讨论】:
标签: machine-learning nlp artificial-intelligence
NLP 中的 Tokenization 和 Segmentation 有什么区别。我搜索了它们,但我并没有真正发现任何差异 .
【问题讨论】:
标签: machine-learning nlp artificial-intelligence
简答:所有的分词都是分词,但并不是所有的分词都是分词。
长答案:
虽然分割是分割输入文本的更通用概念,但标记化是一种分割类型,它是根据明确定义的标准执行的。
例如 - 在一个假设的场景中,如果您的所有输入句子都是两个子句子的复合句子,那么将它们分成两个独立的句子可以称为分段(但不是分词)。
分词是一种分段形式,它是基于语义标准或使用令牌字典执行 - 例如词或子词标记化,主要是为了给它们分配标记 id 以进行下游处理。
【讨论】: