由本论坛举办的第一次数据挖掘竞赛就要落幕了。本人早早的就注册了,却直到最后一刻也没有提交结果,实在惭愧[s:12]
本来我的一个想法是男会员和女会员要分开建模。以男性会员为例,只选择训练集中被记录发信息给女会员有60-600次的男会员(约200个)。msg太少没有信息,太多则信息混乱。然后对这200男的所对应的有msg,click事件的分别用SVM建立200个分类器。
下面的问题是给你一个新的男会员信息,如何选择该用200个分类器中的哪一个或哪几个来对所有女会员进行甄别。这个可以根据其所中意的女会员进行刻画。在训练集中,对有共同感兴趣(msg)的女会员超过比如10个的男会员进行分组(N),最后根据此新男会员的背景和要求来判断他和哪些组相近。从而选择若干对应的分类器对所有女会员进行打分,取和就得每个女会员的评分。分类器打出分,可以按一定的权重累加,选择某个分类器的信心越大,赋给其权重就越大。
哎,也不知道这个算法是否合理。更想知道排名考前的那些队的算法和源代码如何。我倒有个建议,这个活动结束后可以搞一个专版,约请所有入围的队写个小结介绍自己的算法,也算是给大家一个学习的机会。
还有,我知道为了这次活动有很多论坛上的活跃会员如bootstrap, cloud_wei等等付出了大量工作,论坛元老谢老师等也一直给予关注。本人虽然是有硕士学位的博士研究生,在数据挖掘领域却是小学生,根据我过去一年多学习R的体会,在实战中能力提高才会更快。非常感谢各位的努力和付出,希望来年还有类似的活动,来年我一定不再打酱油。[s:11]