【发布时间】:2016-09-13 03:32:43
【问题描述】:
我得到了一个测试和一个训练数据集,应该用于字符串相似度测量。这里我给出了数据集的几行,
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
TOPIC - Twitter 主题
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
我们需要将数据集分成两部分:训练集(35 个样本)和测试集(15 个样本),并且必须使用训练集来调整算法的参数。并使用最佳调整参数在测试集上进行测试。
如果算法是Jaccard系数
如何执行此任务?有人可以让我知道我可以使用的方法。
【问题讨论】:
标签: similarity information-retrieval