7.26周周星(第一名)分享
发布于 4 年前 作者 ping22 646 次浏览 来自 分享
  1. 首先模型是融合的:) 2个mid一个big,均为nn模型。目前我们单模型最高分在716-717之间。

  2. 提高成绩的第一要素是消灭bug。我们在初赛有明显的历史处理bug。举个例子这个数据大家应该都注意到了test和train/valid有一个明显的不一致的地方是test没有重复的(userid,feedid),而train里面有虽然比例很小,但是你如果用这个做特征valid能提很多分但是没有用。因为开始没有注意这个导致历史的处理有少量穿越,模型复杂了之后离线提分很快就68+但是线上没收益,后来修复了这个问题线上成绩却又降低了,复赛复核发现数据处理不小心对大量样本丢弃了很多历史。对于推荐问题历史一定是强特征,用好历史就能涨分。

  3. 快速的迭代很重要,nn模型很依赖参数,调参很关键,特别初期没有完整的调参找到最佳参数模型的进一步迭代是没有意义的。复赛中我们采用了更大的batch size 4k+,而初赛我们只使用了256,更大的batch size带来了更快的模型迭代,调参收益。有的同学觉得大batch效果差,其实还好,损失一点也值得,另外注意可以调大batch size同时等效调大lr,比如256 0.1, 那么1024 就试试0.4。

  4. 目前我们还有很多困惑的地方,包括我们无法从第二轮开始获得任何收益,要么过拟合要么等效一轮训练。这个数据非常有趣和有价值,希望大家能从数据中获取更多灵感取得更好的成绩。

回到顶部