所有由COS编辑部发布的文章

关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读

本文作者陈丽云,落园园主。

声明:本文与作者工作单位及工作内容无关,完全出于个人兴趣爱好。

最近有条很火的新闻。美国大选刚刚落下帷幕,却余波不断。其中一条新闻就是,Google被指责利用搜索结果(假新闻)左右民意。可是事情到底是怎么回事呢?

SAN, FRANCISCO/WASHINGTON – Google’s search engine is highlighting an inaccurate story claiming that President-elect Donald Trump won the popular vote in last week’s election, the latest example of bogus information spread by the internet’s gatekeepers.

The incorrect results are shown in a two-day-old story posted on the pro-Trump “70 News” site. On Monday, a link to the site appeared at or near the top of Google’s influential rankings of relevant news stories for searches on the final election results.

原文不翻译了,大意是,在Google搜索大选相关信息的时候,“popularity vote”第一条结果是一个“洋葱新闻”网站70News。显然Google的算法认为这个网站是最相关的,结果无数的网民就天真地点击过去了,然后愤怒地发现这是一条假新闻(相似的例子可能还有百度医疗广告问题…)。可见人们潜意识里对搜索引擎有一种莫名的信任——排在前面的应该就是我想要的信息。可是,搜索引擎背后也只是一堆堆的机器学习模型,而模型也是需要不断改进的。要改进模型就要告诉模型什么时候判断错了,然后进行参数修正。

最近看到Google research放出来的一篇论文:Learning to Rank with Selection Bias in Personal Search(http://research.google.com/pubs/pub45286.html)。这篇论文是跟排序算法相关的,虽然跟上面的“假新闻”事件没啥直接关系,但殊途同归之处不少。正巧园主前些时日涉足了一些相关的问题,加之标题中的选择偏差(selection bias),一下子引起园主的好奇心,遂通读此文。读完之后感觉有些想法很新颖,只是术语习惯等等和园主习惯的方式有所区别,所以打算以一个非算法的视角来解读一下这篇文章,谈谈园主的一些理解。

继续阅读假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读

利用R语言对用户进行深度挖掘

作者简介:谢佳标

乐逗游戏高级数据分析师,负责大数据挖掘及可视化。资深R语言用户,有九年以上数据挖掘工作实战经验,多次在中国R语言大会上作主题演讲。与张良均老师、杨坦老师合著的《R语言与数据挖掘》一书已在2016年7月出版,新书《R语言游戏数据分析》一书也即将于2017年初出版。

随着游戏市场竞争的日趋激烈,在如何获得更大收益延长游戏周期的问题上,越来越多的手机游戏开发公司开始选择借助大数据,以便挖掘更多更细的用户群、了解用户习惯来进行精细化、个性化的运营。游戏行业对用户的深度挖掘一般从两方面着手:

  • 一方面是用户游戏行为的深度分析,如玩家在游戏中的点击事件行为挖掘,譬如说新手教程中的点击事件,我们一般选择最关心的点击事件(即关键路径)进行转化率的分析(统计每个关键路径的点击人数或次数),通过漏斗图的展现形式就可以直接看出每个关键路径的流失和转化情况。漏斗图适合于单路径转化问题,如果涉及到多路径(点击完一个按钮后有多个按钮同时提供选择)情况时,可以使用路径分析的方法,路径分析更加基础、更加全面、更加丰富、更能真实再现玩家在游戏中的行为轨迹。
  • 另一方面是对用户付费行为的深度挖掘。付费用户是直接给公司创造价值的核心用户群,通过研究这批用户的付费数据,把脉其付费特征,可以实现精准推送,有效付费转化率。

 

继续阅读利用R语言对用户进行深度挖掘

[译]量化投资教程:投资组合优化与R实践(上)

译者简介:   Harry Zhu, R语言爱好者, FinanceR 专栏作者

概述

最近,在研究投资组合优化的问题,主要针对的是股票持仓的组合优化,会在这个分析过程中发现一些有意思的现象,并一步一步优化、检验相应的风控模型。本文将有四个部分分别阐述具体步骤。

请注意,本文并非投资建议。本文数据是基于之前观察到的收益来模拟得来,和历史上的数据并非完全一致。本文提到的技术对了解如何更好地配置投资组合有帮助,但其不应该用作唯一的投资决策,如果需要寻找投资建议,应该转向合格的专业机构进行咨询。

继续阅读[译]量化投资教程:投资组合优化与R实践(上)

COS访谈第25期:李东老师

受访人:李东老师

采访人:张心雨

 

个人简介

李东,清华大学统计学研究中心助理教授。2005年在中科院数学与系统科学研究院获得硕士学位,2010年在香港科技大学获得博士学位。在香港科技大学和美国爱荷华大学做过博士后研究。研究兴趣主要集中在金融计量经济学、非线性时间序列分析、网络与大数据等方向。个人主页:http://www.stat.tsinghua.edu.cn/teambuilder/faculty/李东/

  继续阅读COS访谈第25期:李东老师