【发布时间】:2020-07-03 02:40:05
【问题描述】:
我有一个来自社交网络(FB、Twitter)的 cmets 的文本数据库。 我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。 这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!
【问题讨论】:
标签: machine-learning text nlp classification text-classification
我有一个来自社交网络(FB、Twitter)的 cmets 的文本数据库。 我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。 这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!
【问题讨论】:
标签: machine-learning text nlp classification text-classification
您可以训练有监督的二元分类器(例如,基于 TF-IDF 计数器的逻辑回归,或 fasttext 分类器,或微调 BertForSequenceClassification)。
然后将此分类器应用于您的 cmets 数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的 cmets。
作为训练的正例,您可以使用圣经本身的句子,圣经相关的维基百科文章的句子等。作为负例,您可以使用从网络收集的任何句子语料库 - 例如the Leipzig corpora 之一。
【讨论】: