【发布时间】:2018-06-20 16:39:03
【问题描述】:
我可能误解了快速文本/深度学习如何用于分类,我想考虑最近邻来预测标签。我工作的目的是用同义词预测标签。
我用 fasttext 训练一个大数据集:
fasttext supervised -input data/spam_status.txt -output models/sem -lr 1.0 -wordNgrams 1 -epoch 25
其中 spam_status.txt 使用正则表达式来标记包含单词“skype”的消息:
__label__skype i dont have skype __NUMBER__ sorry
__label__skype skype
__label__skype si ta un skype si
__label__skype i will give u my skype
__label__skype pv ici no skype
__label__skype skype
还有很多带有其他标签的其他消息,如果没有找到,则为“ok”。
“skype”的最近邻居是(fasttext nn models/sem.bin):
- 电子邮件
- 振动
- 电子邮件
- skp
这很好,fasttext 给了我很好的相似词。但如果我问一个预测:
fasttext predict-prob ./models/sem.bin -
donne moi ton skype
__label__skype 1.00001
donne moi ton viber
__label__ok 1.00001
donne moi ton emaill
__label__ok 1.00001
为什么这里不考虑NN?
【问题讨论】:
标签: deep-learning text-classification fasttext