《数据资产论》作者王汉生简介

王汉生,北京大学光华管理学院商务统计与经济计量系,嘉茂荣聘讲席教授,博导,系主任。北京大学商务智能研究中心主任。数据科学微信公众号“狗熊会”创始人。致力于商务统计学的理论研究与产业实践。

1998 年北京大学数学学院概率统计系本科毕业,2001 年美国威斯康星大学麦迪逊分校统计系博士毕业。2003年加入光华至今。国内外各种专业杂志上发表文章一百多篇,并合著有英文专著共一本,(合)著中文教材三本。国际统计协会(International Statistical Institute)、英国皇家统计协会(Royal Statistical Society)、美国数理统计协会(Institute of Mathematical Statistics)、泛华国际统计协会(International Chinese Statistical Association)的会员。美国统计协会(American Statistical Association)2014 年 Fellow。先后历任以下国际学术刊物副主编(Associate Editor):The Annals of Statistics (2008-2009), Computational Statistics & Data Analysis (2008-2012),Statistics and its Interface (2010-现在), Journal of the American Statistical Association (2011-现在),以及Statistica Sinica (2011-现在)。Journal of Business and Economics Statistics (2012-现在), Science China: Mathematics (2013-现在)。

写作背景和数据分析方法论的提出

王小宁:是什么促使您想写这样一本书?

王老师:《数据思维》里只有第一章偏思想的部分是我写的,案例是团队里其他老师写的,没有形成一个完整的理论体系。因此,我一直想写一本偏思想性的理论相对完整的书,能够包含从数据到价值的整个过程,并结合行业中正在经历的数据化转型浪潮,例如数据隐私、数据确权、数据交易等热点话题。

王小宁:您在书中提到了一套规范的数据分析方法论,您能简要介绍下么?

王老师:第一,我们要有一个正确的数据价值观。数据分析的目标一定是为了创造价值,而不是为了分析而分析。第二,我们要理解数据的价值一定是从业务场景中产生的。大量关于数据分析的问题其实都不是问题,因为到底要用在什么场景上都没有分析清楚。第三,数据分析的优势体现在具有强烈不确定性的场景中。比如,今年我家小朋友十岁,明年多少岁?这就没啥好统计分析的,它顶多是个代数问题。再比方,我今年消费了一万块钱,明年大概还会花多少钱?这就有强烈的不确定性了。第四,不确定性的场景里预测不准一定是常态。只要能预测的准,就跟统计学没多大关系。比方说车牌号识别这种事情,最终就变成一个非常确定性的规则,与统计学没多大关系了。一旦有好的业务场景,而且是不确定性的,那么预测不准一定是常态,意味着数据分析只可能建立相对优势,相对优势要求把参照系梳理好,否则说不清楚。第五,因为整个预测只能建立相对优势,而相对优势常常又不足以支撑体验,所以怎么让消费者认可相对优势,怎么在产品上表达是一个很重要的问题,这是最后一个环节。

王小宁:您在书中提到“数据价值之道在于:场景为王,数据次之,算法最后。”您能再详细解释下这么说的原因么?

王老师:很多时候大家说算法重要,我也一直认为算法重要,但是在大多数业务场景中,算法差异不明显,有点像说空气很重要,但是大家都有空气,并不会让你跟别人有什么不一样。为什么算法不会让你跟别人有太大不一样?工作了都知道,天底下算法都是一个老师教出来的,本质上是各种技术算法的拼接组合,并不会有不同,算法重要是毋庸置疑的,但是它不造成你的竞争优势。

什么时候能有竞争优势呢?比方说做征信,全世界人民都看不到消费者的消费记录,但你若是央行的,能够通过合理合规的方法看到支付机构大量的金融属性数据,获得相应的X,不用什么了不起的方法,使用最简单的逻辑回归就能做到比别人好。为什么?因为你有独特的有竞争优势的X变量在里面,所以我觉得数据是比算法更容易产生差别的东西。

什么样的人在数据上能产生优势?第一,制度背景,比如你是一个监管机构或者你所处的环境让你处在相对优势上。第二,商业拓展,你跟你的合作伙伴形成了互惠的商业模式,大家愿意在数据是合法合规的情况下共享。能够在数据上占优势,会让你跟别人不一样,但我觉得最厉害的是场景。

有一个好的场景,不做数据分析都挣钱,做数据分析挣更多的钱。比如做电商,流量够大了,不做数据分析,随便看看昨天什么卖的好,今天就推荐什么,虽不是最优,但也不是特别差。

场景的重要性表现在场景可以没有数据分析,但数据分析不能没有场景,脱离了场景的数据分析一点价值都没有。如果你有比较好的数据分析能力,场景会表现得更强。此外,场景的获得是不容易的,这与你的授权、认证、在行业中的地位非常相关,如果你不处在那位置上,可能根本拿不到场景。

预测的不准确性和数据资产的合规性

黄湘云:您如何看待统计学家和具体行业专家在分析数据价值的过程中各自扮演的角色?

王老师:我觉得统计学家擅长的是对不确定性的建模和理解,缺的是业务知识,而这个行业里的专家,业务知识相对深厚,教育背景多种多样,往往容易钻到工作细节中,因此,建模能力要差一些,这是他们之间的相对优势。业务知识的重要性在于明确什么叫做有意义的问题,有意义的问题就会明确到什么是Y,什么是X,基本的东西确定好了,不管它是线性的、非线性的、深度的、浅度的、机器的,我们一身的能耐才有施展的空间,否则我们一上来就搞错方向了。

黄湘云: 您在多个场合提到朴素的数据价值观,作为一名统计学家或数据分析师,分析数据时在合规性方面应注意哪些呢?

王老师:我觉得这是个特别有挑战性的问题。合规性首先假设我们有有效的规章制度,但实际上因为数据生产过程中的特殊性,它的确权非常有争议,所以规章制度在全球范围内缺乏统一认识。下面我以出版书籍和购买商品为例说明一下不同数据的确权,比如我创作一本书,内容是我的,我再投钱印刷,又把它放到书店里去卖,最后读者花钱买,整个过程它的产权是非常清晰的,没什么争议。但数据的生产过程经常牵扯到好多方,如消费者的购买数据,有消费者贡献的,有平台的采集和整理,这个时候消费者和平台的利益都牵扯在一起,它的确权过程非常有争议,所以造成了在全球范围内,大家对此的看法是不一样的,欧盟按照 GDPR 就会非常的严格,规定数据就是消费者的。

美国相对开放一些,中国相关的制度在各种法律规章中非常的分散,事实上被执行是非常困难的。现阶段,国内缺一个比较中心化的数据合规相关的制度。没有这个前提,就没有参照系,不知道该合什么规,应该如何合规。

在这种情况下我们要怎么做呢?我觉得只能够非常谨慎地用一些人的常识去判断这个事情是不是足够的善。例如,若一个模型是有可能用在对别人不利的场景上,就要尽量谨慎一点,三思而后行。

王小宁:像那种间接的获取别人的身份证或者是比较隐私的信息,比如说通过某些技术手段去获得,这种监管可能会很难了?

王老师:对,非常难!监管方面主要难在哪?归根结底是缺可被执行的完整的法规,法规的制定非常难。首先,这事本身从源头上就有争议。其次,要制定法规,得靠法律专业人士,但他们比较难懂技术,这技术太深了,而懂技术的人又不大懂法律,法律也是很专业的事情,定不好就成一笑话。最后,多方利益的博弈,企业想要自己的商业利益,普通人想要保护自己的隐私,政府想执行监管的权利。三方面的诉求各自有非常合理的成分,但它的边界在哪里?我觉得没有一个唯一正确的答案。不同的文化制度,背景都不一样,只能是让时间来不停地磨合这件事情。

黄湘云:您认为数据确权与合规是非常重要的隐私保护手段。目前,学界、业界和政府分别做了哪些工作?已经进行到什么程度了?

王老师:我了解的非常有限,只能看到自己这一块,这是一个大家都很关注的问题,但是缺乏统一的力量去协调这个事情。我理解学术界从两个角度在关注它,一个是从技术的角度,用什么样的技术手段尽可能地保护隐私,同时还能促成数据的分享和交换。有的做数据模糊化处理、加噪音等,让数据能够保护隐私;还有的偏向其他的一些技术手段,比如靠区块链等等。

政府关心的就更多了,从立法、从相应的法律法规的制定,监管角度都非常地关注。很多人说现在是 FinTech(Financial Technology,金融科技),将来下一个就是跟监管相关的技术,叫 RegTech(Regulatory Technology,监管科技)。

业界对这个问题的也很关心,毕竟他们处在这个行业里面,数据的隐私泄露会伤害企业自身。有的企业恐怕也有一些小小的冲动,想去干点别的事情,所以指望他们自己来管理自己很难,必须建立一套行业规矩,维护市场秩序。 目前,这三方面都是各自关心各自的,我没有看到一个特别统一的力量去讨论和推进这个事情。

数据资产与大数据应用

黄湘云:目前,开办大数据相关的专业、院系越来越多,《数据资产论》教我们更重场景业务,然后是数据模型,学校的教育恰好相反,您对即将从事数据科学的学生和相关从业人员有什么建议?

王老师:我觉得学校的教育恰恰相反,是因为数据模型全天下所有老师教授的都一样,它适合规模化教育。业务场景各行各业都不一样,同一个行业不同的企业又不一样,而且它对老师要求极高。如果老师一点都没干过,基本上讲不出来,不适合大规模的教育,但我不认为这是不好的教育,我觉得是好教育,但太难了。

对于将来从事这个行业的学生和相关人员,我认为要有一点大局观,首先要了解自己做的这些模型或者数据分析在为公司、为机构解决什么样的业务问题。一定先理解这个,因为理解之后,有可能你会发现有些问题不用做数据分析也解决了。更进一步地,最好还能从公司战略发展的方向上去理解,这个业务为什么重要,为什么要做这个业务?因为这个会让你站在更高的角度上去思考这些问题,选择未来产品发展的方向。在这社会上、企业中我们都像一个小水滴一样,随波逐流。如果你能看得清楚自己是顺着大势在走,还是被卡在小泥塘里,你可能会走得更快一些,更好一些。如果只是关注自己做的一点点的技术,有可能你自己就处在一个错误的产品方向上,在解决一个错误的业务需求,你再努力也没有用。

黄湘云:您在书中提到数据资产交易的监管成本非常高昂,而目前很多公司是在将数据中的价值挖掘之后,作为一种服务在售卖,并不直接交易数据本身,这种数据即服务的做法算不算数据资产交易?您怎么看待这种交易方式?

王老师:我觉得首先是定义几个概念,什么是数据?电子化的记录都是。什么是资产?按照会计学的定义能够产生预期经济收益的资源都叫资产。数据资产是能够产生预期经济收益的电子化记录。至于它是原始记录还是被处理过的,统统算在里面。所以,如果公司销售的是服务,就要定义它的服务是什么,也有很多种服务的定义方式,第一种是输出技术,把云技术上的软硬件平台放在客户的平台上跑,跑出来的数据也不是我的,仍然是客户在用,那当然没有交易数据资产,它交易的是个软硬件,是传统的东西。

还有一种是客户的数据在我这里面经过交易加工之后,变成一个新的数据资产拿去售卖,这肯定是数据资产交易的范畴。这时候就像一个普通的资产生产一样,一定要特别小心几个事情。第一,原材料是不是合法合规?比如做一桌子,搞清楚后,我们发现木头不是卖给我的供货商的,是别人的,那人追上门来了,我也很无辜,我肯定就搅和进去了,所以原材料得合法合规。第二,整个加工制造生产过程也得合法合规,不会对第三方造成伤害。比如做桌子的时候,把噪音弄的特别大,污染特别厉害,那也不行。当然,数据的加工它不容易产生这个问题,但看了太多东西,可能干点别的坏事。第三,交易得合法合规,比如生产一瓶水,我想怎么卖就怎么卖,没有太大的问题。但数据常常会在里面或多或少地牵扯到其他个体的隐私,交易过程中需不需要别人授权是需要自己去设计的。

王小宁:在大数据或人工智能时代,作为一位统计学家,您如何给自己定位?

王老师:我觉得这是特别好的问题,我经常琢磨自己独特的优势在哪里?我觉得我们独特的优势就是对不确定性的理解。在这个基础上,我们面临什么挑战且是不是真的挑战?

第一个,大家都说现在数据量很大了,那些传统的计算平台都不成了,得用 Hadoop 或 Spark。这是不是挑战?我觉得不是,只是我们没有学过而已。我自己技术已经很落后了,但对我学生的要求是肯定要熟悉所有典型的并行计算平台,在这个基础上,定义一个统计学家。

第二个,我们所说的人工智能没有严格的定义。实际上,大家可能会觉得比较没有争议的是指和深度学习相关的自然语言处理,图像识别以及各种人际交互方面。我们的训练里面没有这一项,是因为这个很难学,还是因为我们没有学?多半是后者,为什么没有学?因为 GPU 很贵,主要是这个原因。但我们一定要熟悉深度学习这套基本的方法论。所以,我给自己的定位是以不确定性为核心,具备并行计算的能力,能跟进深度学习最前沿的算法,在这个前提下思考自己独特的方法。

发表/查看评论