【发布时间】:2018-12-09 13:10:03
【问题描述】:
我是 ML.Net 的新手,正在玩一些基本的 MultiClassClassification 场景,想知道它现在是否已经可以默认处理停用词,还是我应该在我的数据准备中这样做?
【问题讨论】:
标签: ml.net
我是 ML.Net 的新手,正在玩一些基本的 MultiClassClassification 场景,想知道它现在是否已经可以默认处理停用词,还是我应该在我的数据准备中这样做?
【问题讨论】:
标签: ml.net
请查看 ML.NET 食谱的 this section。
如果您在管道中使用mlContext.Transforms.Text.FeaturizeText,默认情况下会删除英文停用词。
当然,您可以使用其他 ML.NET 提供的组件随意调整您的 NLP 预处理,但是,根据我对文本分类的一点经验,包罗万象的 FeaturizeText 在大多数情况下都做得很合理。
【讨论】: