【发布时间】:2020-04-21 18:38:58
【问题描述】:
我想构建一个分类器来预测用户i 是否会转发推文j。
数据集非常庞大,包含 1.6 亿条推文。每条推文都附带一些元数据(例如,转发者是否关注推文的用户)。
单个推文的文本标记是 BERT id 的有序列表。要获得推文的嵌入,您只需使用 ids(所以它不是文本)
是否可以微调 BERT 来进行预测?如果是,您推荐哪些课程/资源来学习如何微调? (我是初学者)
我应该补充一点,预测应该是概率。
如果不可能,我正在考虑将嵌入转换回文本,然后使用我将要训练的任意分类器。
【问题讨论】:
-
我是否正确理解您想要基于两个特征进行二进制分类,用户
i和推文j,以确定i是否会转发j?或者您是否正在对推文j进行二元分类,以便(任何用户)转发推文? -
@stackoverflowuser2010 不,不仅基于两个功能,我还没有真正弄清楚要使用哪些功能......虽然预测应该是个性化的,所以对于每个用户,我必须创建一个用户和推文配置文件,描述通过执行 NLP 引起的兴趣,然后从中提取特征值。是清楚还是我让它变得更糟了哈哈?
-
让我在不使用“功能”一词的情况下重新表述这个问题。你的分类算法的输入是什么?具体来说,我知道您要创建一个确定
y=f(x)的模型。我知道y将是二元决策retweet / not retweet。这里的输入x是什么?只是推文j的正文吗? -
@stackoverflowuser2010,老实说,我还不太确定,但从高层次的角度来看,它应该是描述我试图预测的特定推文和用户的特征。特征的一个例子是用户个人资料和推文内容之间的相似度。用户简档可以包含用户感兴趣的主题(例如,足球等)。感谢您抽出宝贵时间帮助我!
-
@Calvin 赏金怎么了?
标签: machine-learning nlp bert-language-model