【问题标题】:NLP using replacement tokens使用替换令牌的 NLP
【发布时间】:2019-11-12 03:06:44
【问题描述】:

我阅读了很多处理不同 NLP 分类任务的文章,我看到它们中的大多数都在预处理部分指定他们使用替换标记:

例如我们删除了 URL、表情符号和标点符号并将其替换为替换标记:<URL>, <EMOJI>, <PUNCT>

我对这个领域很陌生,我想知道是否有一些特殊的方法来处理这种令牌/标签?是否有必要使用< > 或者这只是一种表示这种替换并帮助分类器找到模式的方式?

任何帮助将不胜感激。

【问题讨论】:

  • 这样做很常见,因此您知道,例如,如果您的文本中碰巧有 url 这个词,那么 就不一样了

标签: python nlp text-classification


【解决方案1】:

根据我所做的,在预处理部分,人们用数字替换所有标记(字符、词素、单词)。这些替换令牌也不过是数字<URL> 只是向人类展示它的一种方式。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-11-19
    • 2011-04-07
    • 1970-01-01
    • 2012-04-10
    • 2022-01-23
    • 1970-01-01
    • 1970-01-01
    • 2019-02-25
    相关资源
    最近更新 更多