6.14周周星(第四名)分享
目前主要用lgb和nn融合。
lgb我用了500多个特征,主要包括device以及feed, author, bgm_song, bgm_singer, keyword和tag特征,其中keyword和tag统计后取平均值。我用历史前7天统计,后7天来训练。主要统计7个标签的count和比例,以及stay和play的min, max, mean, median, std等统计值。此外加入512维embedding的pca降维特征也有一定提升。而user特征几乎没有作用。有一些小发现,比如测试集user-feed对都是新出现的,比如测试集可能是周四,比如click_avatar和follow间的相关性很强,这些都没能帮我提高分数。
nn我用的是deepctr,直接输入上面的id训练。但是deepctr不太稳定。我训练了10份结果并取了均值,相对于单模型有比较大的提升。
目前我lgb能做到0.672左右,和nn融合后达到0.68,但是应该有很大的overfitting,换榜后大概会显著变差,估计前排其它队伍可能也有一定程度的overfitting。