5.31周周星（第二名）分享 - WXOPEN Club

1. 这个比赛正负样本不平衡，虽然总样本有七百万，其实正样本并不多，所以全量训练提升有比较大的提升；

2. 这个比赛有高维category数据，因此lgb设置比较低的学习率也可以带来比较好的提升；

3. 一定要在线下设置好验证策略，由于视频号这个业务的特殊性，存在一些ctr比赛常见套路特征在这个比赛会降低模型性能，但是这些都可以通过好的线下验证过滤掉，此外test数量不够多以及正样本比例小，榜上±二个千是正常的；

4. 关于模型之争，初赛有于正样本数量有限，我估计树模型会优于nn，但是复赛特征数量提升一个量级，我认为nn会优于lgb，特别是list以及多模态特征有包含不少信息量的情况，如果目标是复赛获奖的话，还是要努力提升nn模型。