标签归档:可视化

股市稳赚不亏?标普 500的 40 年的投资回报

本文翻译自 GitHub 项目 zonination/investing 的描述文件 README.md。译者对原文顺序有所改动。

原文以 MIT 协议发布,已征得作者  Zoni Nation 许可进行翻译。译文版权归统计之都所有,转载请注明出处。

很多人是从 Reddit 上的 “个人理财”(/r/personalfinance)板块的贴子和评论里认识我的。我最近也经常逛“美丽数据”(/r/dataisbeautiful)板块。(译者注:Reddit 是一个在美国受众广泛的娱乐、社交及新闻网站。它与论坛类似,注册用户可以在网站上发布文字和链接。)

前段时间,我开始了我的第一个数据可视化项目。我先从 Robert Shiller 的标普 500 数据项目中下载了标普 500 的一些数据,开始了疯狂的数据可视化之旅。

最近,我终于把手头上的其他几个项目处理好,安定下来,于是我又回到这些数据上,同时决定用它完成一个完整的可视化项目。

这里引用美联储主席 Alan Greenspan 对 股神 Warren Buffet 说过的一段话:

Warren,你让我太震惊了!你只要不去理会股票市场的短期甚至长期的衰退,咬紧牙关,什么也不做,不卖出任何一支股票,你就总能获得好的股票收益。也就是,你只要把你所有的钱都投到股票里,然后回家看也不看它们一眼,之后你获得的收益比每天尝试进行股票交易的情况还要高。

“个人理财”板块上经常有人在讨论长期持仓(buy and hold)策略的资金安全问题,是选择长期持仓,还是选时操作捕捉市场(time the market)。在这个可视化项目中,我尝试做下面三件事情:

  • 客观地回顾标普 500 相关股票的各个切面的长期投资收益(过去和现在)。
  • 验证和量化 “Invest Early and Invest Often” “早投资,勤投资” 这一格言。
  • 观察使用长期持仓策略会带来什么,以及这个策略的收益。

长期持仓收益

长期持仓收益

继续阅读股市稳赚不亏?标普 500的 40 年的投资回报

REmap入门示例

REmap是一个基于Echarts2.0 http://echarts.baidu.com 的一个R包。主要的目的是为广大数据玩家提供一个简便的,可交互的地图数据可视化工具。目前托管在github,https://github.com/lchiffon/REmap

使用如下步骤安装:

library(devtools)
install_github('lchiffon/REmap')

REmap目前更新到V0.3,提供百度迁徙,分级统计,百度地图,热力图等功能的实现。

提示:请使用Chrome或者Firefox来作为默认浏览器

最后要声明的一点:这个包的目的是简化使用和学习的流程,如果你是一个好学的geek,请深入的学习Echarts!

特性

  1. 使用Echarts2.0封包,地图绘制使用的是SVG图形
  2. 采用百度API来自动获取城市的经纬度数据
  3. 支持Windows!

继续阅读REmap入门示例

使用ggtree实现进化树的可视化和注释

本文作者:余光创,目前就读于香港大学公共卫生系,开发过多个R/Bioconductor包,包括ChIPseeker, clusterProfiler, DOSE,ggtree,GOSemSimReactomePA
进化树看起来和层次聚类很像。有必要解释一下两者的一些区别。

层次聚类的侧重点在于分类,把距离近的聚在一起。而进化树的构建可以说也是一个聚类过程,但侧重点在于推测进化关系和进化距离(evolutionary distance)。 继续阅读使用ggtree实现进化树的可视化和注释

一行R代码来实现繁琐的可视化

本文作者: 唐源,目前就职于芝加哥一家创业公司,曾参与和创作过多个被广泛使用的 R 和 Python 开源项目,是 ggfortify,lfda,metric-learn 等包的作者,也是 xgboost,caret,pandas 等包的贡献者。(喜欢爬山和烧烤

ggfortify 是一个简单易用的R软件包,它可以仅仅使用一行代码来对许多受欢迎的R软件包结果进行二维可视化,这让统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能以 ggplot 的风格画出好看的图,大大地提高了工作的效率。

ggfortify 已经可以在 CRAN 上下载得到,但是由于最近很多的功能都还在快速增加,因此还是推荐大家从 Github 上下载和安装。

library(devtools)
install_github('sinhrks/ggfortify')
library(ggfortify)

接下来我将简单介绍一下怎么用 ggplot2ggfortify 来很快地对PCA、聚类以及LFDA的结果进行可视化,然后将简单介绍用 ggfortify 来对时间序列进行快速可视化的方法。

PCA (主成分分析)

ggfortify 使 ggplot2 知道怎么诠释PCA对象。加载好 ggfortify 包之后, 你可以对stats::prcompstats::princomp 对象使用 ggplot2::autoplot

library(ggfortify)
df <- iris[c(1, 2, 3, 4)]
autoplot(prcomp(df))

ggfortify-unnamed-chunk-1-1你还可以选择数据中的一列来给画出的点按类别自动分颜色。输入help(autoplot.prcomp) 可以了解到更多的其他选择。

autoplot(prcomp(df), data = iris, colour = 'Species')

ggfortify-unnamed-chunk-2-1比如说给定label = TRUE 可以给每个点加上标识(以rownames为标准),也可以调整标识的大小。

autoplot(prcomp(df), data = iris, colour = 'Species', label = TRUE,
         label.size = 3)

ggfortify-unnamed-chunk-3-1给定 shape = FALSE 可以让所有的点消失,只留下标识,这样可以让图更清晰,辨识度更大。

autoplot(prcomp(df), data = iris, colour = 'Species', shape = FALSE,
         label.size = 3)

ggfortify-unnamed-chunk-4-1

继续阅读一行R代码来实现繁琐的可视化

COS沙龙第25期(北京)

  • 主题:大数据时代的数据可视化
  • 嘉宾:包明明
  • 主办:统计之都、北京大学商务智能研究中心
  • 场地:北京大学光华管理学院
  • 组织:蔡占锐、闫晗、吕翔、冯璟烁、陈源韬、王一宁
  • 纪要: 吕翔

mmexport1418655675790

2014年12月14日,第25期COS沙龙(北京站)在北京大学光华管理学院顺利举行。各位统计爱好者、投资从业者顶着帝都的寒风纷纷前来,积极探讨,共同完成了一场主题为“大数据时代的数据可视化”的精彩分享沙龙。本次沙龙由人大本科生王一宁主持,嘉宾是现任北京云思科技公司数据产品开发推广负责人包明明先生。

继续阅读COS沙龙第25期(北京)