所有由COS编辑部发布的文章

关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

第十届中国R会议(北京)会议通知

thu

2017年,是中国R会议值得纪念的第10个年头,本届R会议将于5月19-21日在美丽的清华大学举办。在这样一个值得纪念的时刻,让我们相聚清华大学统计学研究中心,相聚R会议十周年庆典,相聚这场数据与统计的盛宴!本届会议覆盖数据科学多个领域,我们非常期待您的到来!

继续阅读第十届中国R会议(北京)会议通知

ggimage:ggplot2中愉快地使用图片

作者简介:余光创,香港大学公共卫生学院,生物信息学博士生。

博客:https://guangchuangyu.github.io, 公众号:biobabble

导言

本文介绍了ggimage包,允许在ggplot2作图时嵌入图片,并支持aes映射,可以把离散型变量映射到不同图片。目前有几个包可以使用图片嵌入做图,但都是针对特定的场景,这里使用ggimage来展示在这些特定领域里的应用,ggimage的设计是通用的,并不被特定场景所限定,文末又介绍了用R图标来画出R、用饼图来画气泡图等实例。
继续阅读ggimage:ggplot2中愉快地使用图片

聊聊美国保险业

作者简介:侯澄钧,俄亥俄州立大学运筹学博士,目前在美国从事财产事故险(Property & Casualty)领域的保险产品开发,涉及数据分析、统计建模和产品算法优化等方面的工作。

只有想不到,没有保不了。这就是我对美国保险行业最深刻的认识。大到地震,小到球票,加上平时开车,租房,看病,旅游,保险无时不刻的出现在了美国人生活工作的方方面面。除了没有住所,没有工作,没有任何财产的流浪人员,每个美国人都不可避免得需要与保险打交道。如果银行是厚重的少林,证券是玄妙的武当,那保险作为弟子遍布江湖的丐帮确实当之无愧。下面我想从房屋火灾险,医疗责任险,自然灾害险,聊聊美国人是怎么开始玩保险,然后玩出各种花样,甚至玩坏的。之后我会写写数据科学是如何应用于保险行业的,同时介绍一些常用的预测模型,只对这方面内容感兴趣的朋友可以直接跳过之前的内容。

继续阅读聊聊美国保险业

一款新的 R Markdown 幻灯片制作工具:xaringan

作者:边蓓蕾      审校:郎大为      编辑:彭晨昱

今天小编给大家介绍一款新的幻灯片神器:xaringan(中文名:幻灯忍者)。它基于大家都熟悉的 R Markdown 语法,幻灯片中能嵌入 R 代码动态生成输出结果,最后生成的是 HTML5 幻灯片,可以在网页浏览器里打开阅览,我们一起来探个究竟吧。对了,官方教程在这里:https://slides.yihui.name/xaringan/zh-CN.html

在此声明一下本文适宜读者群:R码农,熟悉markdown语法,懂点前端的你们。当然如果以上你都不太熟悉但又有着求知欲,希望本文将是你成为幻灯忍者的起点。

 

继续阅读一款新的 R Markdown 幻灯片制作工具:xaringan

假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读

本文作者陈丽云,落园园主。

声明:本文与作者工作单位及工作内容无关,完全出于个人兴趣爱好。

最近有条很火的新闻。美国大选刚刚落下帷幕,却余波不断。其中一条新闻就是,Google被指责利用搜索结果(假新闻)左右民意。可是事情到底是怎么回事呢?

SAN, FRANCISCO/WASHINGTON – Google’s search engine is highlighting an inaccurate story claiming that President-elect Donald Trump won the popular vote in last week’s election, the latest example of bogus information spread by the internet’s gatekeepers.

The incorrect results are shown in a two-day-old story posted on the pro-Trump “70 News” site. On Monday, a link to the site appeared at or near the top of Google’s influential rankings of relevant news stories for searches on the final election results.

原文不翻译了,大意是,在Google搜索大选相关信息的时候,“popularity vote”第一条结果是一个“洋葱新闻”网站70News。显然Google的算法认为这个网站是最相关的,结果无数的网民就天真地点击过去了,然后愤怒地发现这是一条假新闻(相似的例子可能还有百度医疗广告问题…)。可见人们潜意识里对搜索引擎有一种莫名的信任——排在前面的应该就是我想要的信息。可是,搜索引擎背后也只是一堆堆的机器学习模型,而模型也是需要不断改进的。要改进模型就要告诉模型什么时候判断错了,然后进行参数修正。

最近看到Google research放出来的一篇论文:Learning to Rank with Selection Bias in Personal Search(http://research.google.com/pubs/pub45286.html)。这篇论文是跟排序算法相关的,虽然跟上面的“假新闻”事件没啥直接关系,但殊途同归之处不少。正巧园主前些时日涉足了一些相关的问题,加之标题中的选择偏差(selection bias),一下子引起园主的好奇心,遂通读此文。读完之后感觉有些想法很新颖,只是术语习惯等等和园主习惯的方式有所区别,所以打算以一个非算法的视角来解读一下这篇文章,谈谈园主的一些理解。

继续阅读假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读