如何根据内容对与圣经相关的文本进行分类答案

【问题标题】：How to classify texts that are related to the bible based on their content如何根据内容对与圣经相关的文本进行分类
【发布时间】：2020-07-03 02:40:05
【问题描述】：

我有一个来自社交网络（FB、Twitter）的 cmets 的文本数据库。我的目标是根据内容对与圣经有密切关系的文本进行分类（例如，如果使用了引用或“圣经”词。这是一个二元分类问题，我需要帮助来弄清楚如何处理它（也许以某种方式将圣经用作字典）。谢谢！

【问题讨论】：

【解决方案1】：

您可以训练有监督的二元分类器（例如，基于 TF-IDF 计数器的逻辑回归，或 fasttext 分类器，或微调 BertForSequenceClassification）。

然后将此分类器应用于您的 cmets 数据库，并找到一个合理的概率阈值，以仅保留分类器足够自信的 cmets。

作为训练的正例，您可以使用圣经本身的句子，圣经相关的维基百科文章的句子等。作为负例，您可以使用从网络收集的任何句子语料库 - 例如the Leipzig corpora 之一。

【讨论】：