6.7周周星(第二名)分享
1. 同一天内的数据存在较多泄露,因此用随机交叉验证会导致线下分数虚高,按日期来切割线下的验证集是比较稳定的做法。线上测试集中的user都在训练集中出现过,feed有一些没出现过,user-feed对都没出现过,同一个user每一个feed最多出现一次,等等。构造验证集时要考虑是否要做一些筛选,使得测试集和验证集的特性尽量接近
2. 少量行为用户比较难预测,会导致uauc波动大,因此加某个特征上分了不一定说明这个特征有用 可能只是波动
3. play,stay这些信息在测试数据中没有,因此不能直接用来训练,但是可以用来提取一些feed的相关特征
4. 图神经网络是我最近一直在研究的算法,据说该算法在推荐系统中大有作为,因此觉得以此算法为队名比较吉利,希望大家不要被误导。