5.31周周星(第二名)分享
1. 这个比赛正负样本不平衡,虽然总样本有七百万,其实正样本并不多,所以全量训练提升有比较大的提升;
2. 这个比赛有高维category数据,因此lgb设置比较低的学习率也可以带来比较好的提升;
3. 一定要在线下设置好验证策略,由于视频号这个业务的特殊性,存在一些ctr比赛常见套路特征在这个比赛会降低模型性能,但是这些都可以通过好的线下验证过滤掉,此外test数量不够多以及正样本比例小,榜上±二个千是正常的;
4. 关于模型之争,初赛有于正样本数量有限,我估计树模型会优于nn,但是复赛特征数量提升一个量级,我认为nn会优于lgb,特别是list以及多模态特征有包含不少信息量的情况,如果目标是复赛获奖的话,还是要努力提升nn模型。