7月27日,一场历时三年的百万美元大奖赛终于落下了帷幕。这场比赛是由美国Netflix公司发起、组织的一场为改善其电影推荐系统算法,并悬赏一百万美元的专业比赛,参赛者是由来自186个国家的计算机科学家、专家、学者等组成的数万支队伍。在Netflix公开测试排名的众多的参赛者中一名来自中国的学生格外引人注目。他就是来自中国科学院自动化研究所模式识别国家重点实验室杨青研究员的在读博士生项亮同学。在这场竞赛中项亮所在的团队(The Ensemble)在公开测试排名中名列第一。
Netflix公司(中文译名:奈飞公司)是成立于1997年的美国最大的在线DVD租赁商。To help customers find those movies, we've developed our world-class movie recommendation system: Cinematch SM .。2006年10月,Netflix公司宣布启动一项名为Netflix大奖的推荐系统算法竞赛,鼓励全世界的研究团队,以Netflix目前使用中的推荐系统Cinematch为竞争标的,比Cinematch推荐绩效提高10%的团队,将有资格获得一百万美元的奖励。这项颇具挑战性的比赛吸引了5万名计算机科学家、专家、爱好者等参与角逐,参赛队伍都在为提高这一推荐系统算法的10 %的神奇大关而奋斗,但是直到2009年6月26日,这一大关才终于被由一些顶级团队联手形成的BellKor's Pragmatic Chaos团队打破,成绩提高了10.05 % 。此后,按照比赛规则,Netflix公司宣布进入最后30天的决赛。如果没有其他的队伍提交的算法超越BellKor's Pragmatic Chaos团队,那么他们无疑就是这场比赛的赢家。但是,就在决赛第29天的时候项亮所在的团队(The Ensemble)提交了他们最后的算法,并超过了BellKor's Pragmatic Chaos团队位居公开测试排行榜第一位。
项亮的专业研究方向是机器学习和数据挖掘,在其导师杨青研究员的指导下参与通用搜索引擎的研究与开发。今年3月,他才参与到这个比赛中,在短短几个月的时间时间里,项亮就能取得如此骄人的成绩,体现了他扎实的理论基础和强劲的实践能力。项亮认为自己之所以会参加这个比赛一个很重要的原因是:“我做推荐系统的研究,这是一个不错的数据集,又有比较权威的评测。参加比赛是副业,研究是主要的,参加的目的只是为了测试我的算法。”同时,他对于这场比赛个人能否夺冠的看法是:“因为任何一个参加的人都不可能认为自己能拿到第一,这个概率绝对低于中彩票的概率。”在这个比赛的过程中,他不断的设计模型,训练模型并提交。其最后提交形成的结果是100多个模型融合的结果。在这场比赛中,项亮觉得他不仅学到了很多协同过滤的方法,而且与国外的专业技术人员进行了很好的交流与合作。与此同时,通过比赛的训练也让他对机器学习的一些问题有了更深刻的认识。
因为比赛的最终结果是由公开测试和隐藏测试两部分组成的,所以比赛虽然已经结束了,但是现在还不能确定谁才是真正的百万大奖得主,答案将在今年的9月份揭晓。正如纽约时报记者Steve Lohr所说, 不管是The Ensemble队还是BellKor's Pragmatic Chaos队,Netflix大奖真正让大家认识到了团队合作的威力。