COS数据分析沙龙第八期(上海,@联合创业办公社)

冬日的阴霾还没有完全散去,而温度却也在悄然的回升。周末的下午,相聚在极富小资情调的沙龙,也不失为一种打磨时光的优雅方式嘛。(感谢联合创业办公社

兴致所至,偶得意的笑~
兴致所至,偶得意的笑~

沙龙例行的,大家会简单的介绍一下自己。出乎组织者意料,陆陆续续的居然来了三十多位朋友,瞬间小小的会议室显得高朋满座,讨论气息愈加浓烈。据我们的不完全统计,参加者来自金融,制药,市场咨询,IT,电商,学术研究等领域,可谓跨界一锅端,热闹的紧。

相互熟悉之后,李舰开始为大家展示新鲜出炉的两个中文文本分析工具:RwordsegRweibo。前者是最新的中文分词工具,不仅仅利用了流行的隐形马尔可夫链中文分析算法,而且加入了对于优秀的搜狗细胞词库的支持、自定义词库等等。据现场探子汇报,李舰透露了他正在开发一套完整的中文分词方案的计划,可能纳入条件随机场这样高富帅的分词方法,以及针对中文编码的全套解决方案。Rweibo则是可以直接调用新浪微博的API接口抓取最新的数据,然后再调用Rwordseg进行分词之后,就可以很方便的画出中文的词云之类。当然进一步的,也可以进行更细致的分析,暂时按住不表。

高朋满座,咦怎么有些面熟呢?
高朋满座,咦怎么有些面熟呢?

紧接着自然少不了对中文分词的应用。当然严肃的学术文章有很多,严肃的业界应用也有很多,不过既然是沙龙我们就要找最最好玩的!于是就看到了陈丽云带来的关于金庸小说的文本分析介绍。其实这里的思路很简单,就是把金庸的“飞雪连天射白鹿, 笑书神侠倚碧鸳”十四本小说的文本文件下载下来,然后做一下中文分词(其中用到搜狗的金庸和武侠词库),最后把人名和武器留下来就可以了。分完词之后,就可以进一步的定义“链接”、然后做标准的网络分析了。据说这篇文章是给统计之都预留的,可惜到现在大家都还没有看到…呃,现场观众近水楼台先得月,拍一张纪念一下再说!(@ghosTM55) 除了武器排名之外,还展示了金庸小说的聚类分析(一枝花有木有?)和人物关系分析,各种漂亮的网络图跃然投影幕布之上…在场观众纷纷表示,除了各种“毁童年”之外,强烈要求同义词词典,你难道不知道杨过叫小龙女是“姑姑”么?怎么能这样无情的忽略之?

金庸武器受欢迎程度排名
金庸武器受欢迎程度排名

可视化浪潮泛滥,然后周扬萌主就响应大家的号召,展示他最近基于D3框架开发的R与HTML5动态图。呃,怎么这个图看起来这么眼熟?什么?这个图还会动的?错过现场展示的大家不要着急,这里有在线的demo,快去猛戳吧:http://yzhou.org/demo/html5Vis.html。据萌主本人证实,“corrplot作为第一个实现的交互图发布,下个是googleVis MotionChart,让大家都能动起来!”,有没有很期待呢?

R+HTML5,炫到极致
R+HTML5,炫到极致(@吃粉的怪物)

各种展示完毕,大家开始了群情激昂的讨论。从地理信息系统到实时可视化展现,从医疗制药数据到茶叶配方优化,各种惊讶各种欢乐。然后,来自1号店的洪建飞直接拿出来刻着“草稿”的幻灯片,瞬间大家都惊掉了!太有诚意了有木有?大家在一片欢声笑语中,依依不舍的结束了周日的沙龙。事后群众纷纷表示,要求进一步发展沙龙的深度和广度,联系更多领域,加强学术探讨。组织者在开心的同时,瞬间表示鸭梨山大…

照例,饭局还是必不可少的,提供了很好的“认亲”的机会,什么“直系学长”啦,老乡啦…喝点小酒啦,笑谈风月啦…(来认领照片吧)。

酒足饭饱嗯!
酒足饭饱嗯!


COS数据分析沙龙第八期(上海,@联合创业办公社)》有17个想法

  1. Liyun 的武侠情节让我钦佩不已,默默暗示自己一定要补课,一定要补课。要不然听不懂。

      1. 哎,,,你们都是文艺范,动辄吟诗作对,明显赶不上,平时说四个字都难,

    1. 我们下一期的沙龙在weibo上通知了。http://weibo.com/1318558807/ztNA9C3hT 等我稍后去论坛上补个帖子。

发表评论

电子邮件地址不会被公开。 必填项已用*标注