【发布时间】:2019-11-01 01:36:00
【问题描述】:
我有一个数据框df:
userID Score Task_Alpha Task_Beta Task_Charlie Task_Delta
3108 -8.00 Easy Easy Easy Easy
3207 3.00 Hard Easy Match Match
3350 5.78 Hard Easy Hard Hard
3961 10.00 Easy Easy Hard Hard
1. userID is factor variable
2. Score is numeric
3. All the 'Task_' features are factor variables with possible values 'Hard', 'Easy', 'Match'
我想查看转换(Task_alpha、Task_beta、Task_Charlie、Task_Delta)和分数之间可能存在的关联。
我的假设是2-gram 或bi-gramsequence Hard Hard 可能与更高的分数相关联。但是,序列Easy Easy 将与较低的分数相关。
在这个例子中,我只考虑了2-gram。在我的实际代码中,我也想尝试更长的序列。仅供参考,您可以看到我们可以拥有的bi-grams 总数为:
Easy Hard
Hard Easy
Easy Match
Match Easy
Hard Match
Match Hard
问题:作为第一步,我需要的总体输出类似于:
Task Task Score
Easy Easy -8.00
Easy Easy -8.00
Easy Easy -8.00
Hard Easy 3.00
Easy Match 3.00
Match Match 3.00
Hard Easy 5.78
Easy Hard 5.78
Hard Hard 5.78
Easy Easy 10.00
Easy Hard 10.00
Hard Hard 10.00
【问题讨论】:
标签: r nlp token sequence n-gram