【问题标题】:difference between Tokenization and Segmentation标记化和分割之间的区别
【发布时间】:2021-12-31 00:32:28
【问题描述】:

NLP 中的 Tokenization 和 Segmentation 有什么区别。我搜索了它们,但我并没有真正发现任何差异 .

【问题讨论】:

    标签: machine-learning nlp artificial-intelligence


    【解决方案1】:

    简答:所有的分词都是分词,但并不是所有的分词都是分词。

    长答案:
    虽然分割是分割输入文本的更通用概念,但标记化是一种分割类型,它是根据明确定义的标准执行的。
    例如 - 在一个假设的场景中,如果您的所有输入句子都是两个子句子的复合句子,那么将它们分成两个独立的句子可以称为分段(但不是分词)。
    分词是一种分段形式,它是基于语义标准或使用令牌字典执行 - 例如词或子词标记化,主要是为了给它们分配标记 id 以进行下游处理。

    【讨论】:

    • 能否请你给我一个真实世界的例子来进一步澄清
    • 将你的文本语料库分成句子是分割,而不是标记化。使用句子的子词生成标记 ID 作为转换器模型的输入是标记化(因此也是分段)
    猜你喜欢
    • 1970-01-01
    • 2018-09-10
    • 1970-01-01
    • 2015-08-28
    • 1970-01-01
    • 1970-01-01
    • 2015-01-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多