6.7周周星（第二名）分享 - WXOPEN Club

1. 同一天内的数据存在较多泄露，因此用随机交叉验证会导致线下分数虚高，按日期来切割线下的验证集是比较稳定的做法。线上测试集中的user都在训练集中出现过，feed有一些没出现过，user-feed对都没出现过，同一个user每一个feed最多出现一次，等等。构造验证集时要考虑是否要做一些筛选，使得测试集和验证集的特性尽量接近

2. 少量行为用户比较难预测，会导致uauc波动大，因此加某个特征上分了不一定说明这个特征有用可能只是波动

3. play,stay这些信息在测试数据中没有，因此不能直接用来训练，但是可以用来提取一些feed的相关特征

4. 图神经网络是我最近一直在研究的算法，据说该算法在推荐系统中大有作为，因此觉得以此算法为队名比较吉利，希望大家不要被误导。