【发布时间】:2019-11-12 03:06:44
【问题描述】:
我阅读了很多处理不同 NLP 分类任务的文章,我看到它们中的大多数都在预处理部分指定他们使用替换标记:
例如我们删除了 URL、表情符号和标点符号并将其替换为替换标记:
<URL>, <EMOJI>, <PUNCT>。
我对这个领域很陌生,我想知道是否有一些特殊的方法来处理这种令牌/标签?是否有必要使用< > 或者这只是一种表示这种替换并帮助分类器找到模式的方式?
任何帮助将不胜感激。
【问题讨论】:
-
这样做很常见,因此您知道,例如,如果您的文本中碰巧有
url这个词,那么就不一样了
标签: python nlp text-classification