【发布时间】:2020-07-28 10:47:36
【问题描述】:
以下是我正在尝试进行特征工程师的数据集的一列:
+---+-----------------------------+
|Id |events_list |
+---+-----------------------------+
|1 |event1,event3,event2,event1 |
+---+-----------------------------+
|2 |event3,event2 |
+---+-----------------------------+
有 3 种可能的事件类型,它们到达的顺序保存为字符串。 我已经像这样转换了事件列:
+---+--------------------+
|Id |event1|event2|event3|
+---+--------------------+
|1 |2 |1 |1 |
+---+--------------------+
|2 |0 |1 |1 |
+---+--------------------+
保留计数信息但丢失订单信息。
问:有没有办法将订单编码为特征?
更新:对于我计算当天的每一行事件的分数,模型应该预测新的日常事件的未来分数。无论如何,我的事件顺序和计数会影响每日得分。
更新:我的数据集包含其他日常信息,例如会话计数等,目前我的模型是按日期消化每一行的 LSTM。我想通过将订单信息添加到现有模型来尝试改进我的预测。
【问题讨论】:
-
感谢您的回复,请看我的更新
-
看看medium.com/@Nithanaroy/… 有一些很好的例子,我会使用哈希嵌入。
标签: machine-learning dataset feature-engineering