6.7周周星（第一名）分享 - WXOPEN Club

本人目前使用的是Catboost单模型加自己的手工特征，特征量在300+，建议选手多看看数据，而不是一股脑将数据强行喂入模型。

具体可分享的如下：

1、目前的初赛数据我猜测是复赛的一个子集，但采样的时候导致有的feed序列出现不连续的情况，比如1、2、4、5天都有被用户浏览过，但date缺失了3，

如果选手是用深度模型的话，可能会受到影响，具体可自己实验分析;

2、很多选手做的手工特征加到模型后，验证集取得了较大的提升，线上却gg，这种大概率是穿越了，具体穿越的原因可自己进行分析，有的穿越还是不容易被发现的;

3、树模型的潜力可能没有深度模型大，目前树模型取得的优势很大程度上在于初赛的数据不够大，不过为了进入复赛，树模型还是有可研究的价值的。具体可做的特征不仅仅

是LabelEncoder，One-hot，还有TargetEncoding，TFIDF等。

树模型类似比赛比较好的开源代码我这边例举一些：

最后建议选手们多多试错，多加思考，多从业务上理解数据。