6.7周周星(第一名)分享
发布于 4 年前 作者 zye 4077 次浏览 来自 分享

 本人目前使用的是Catboost单模型加自己的手工特征,特征量在300+,建议选手多看看数据,而不是一股脑将数据强行喂入模型。

具体可分享的如下:

1、目前的初赛数据我猜测是复赛的一个子集,但采样的时候导致有的feed序列出现不连续的情况,比如1、2、4、5天都有被用户浏览过,但date缺失了3,

如果选手是用深度模型的话,可能会受到影响,具体可自己实验分析;

2、很多选手做的手工特征加到模型后,验证集取得了较大的提升,线上却gg,这种大概率是穿越了,具体穿越的原因可自己进行分析,有的穿越还是不容易被发现的;

3、树模型的潜力可能没有深度模型大,目前树模型取得的优势很大程度上在于初赛的数据不够大,不过为了进入复赛,树模型还是有可研究的价值的。具体可做的特征不仅仅

是LabelEncoder,One-hot,还有TargetEncoding,TFIDF等。

树模型类似比赛比较好的开源代码我这边例举一些:

https://github.com/plantsgo/ijcai-2018

https://github.com/YouChouNoBB/2018-tencent-ad-competition-baseline

https://github.com/digix2020/digix2020_ctr_rank1

最后建议选手们多多试错,多加思考,多从业务上理解数据。

1 回复

大佬,这里的TFIDF是指对ID做,还是指对tag和keyword做呀?

回到顶部