此均值非彼均值

itellin

统计学意义是上的均值是描述数据的集中程度的，从古到今大家都认为把N个数相加然后在除以N就可以了。但这种方式只适用于高斯分布，对非高斯分布，如果还是用这种方式描述数据的集中程度就是问题一箩筐，于是就有了各种各样的描述数据集中程度的方法，什么加权平均，中位数，等等，等等。这有点像说了一个谎，后面就要不断地去圆这个谎。

人们一直把自己局限在X轴进行划分的框架内进行辛勤的挖掘，确发现一直是头痛医头。如果跳出X轴的制约，把目光转移到对Y轴的划分，一篇新天地就呈现在眼前，把数据重新排列，然后找出频数最大的那个数作为均值似乎更加合理地描述数据的集中程度。

在某类优化问题中，人们一般都是采用拉格朗日乘数法，找出约束条件，求导，解方程，最后得出一个局部最优的结论，如果换做频数最大对应的值，根本就不需要这么大费周章，并且得出的结果还是全局最优的；还有那个最大熵，费了半天劲，结果还是不如用最大频数对应的数来的方便，这些都不是重点，重点是使用对Y轴进行划分来描述数据的集中程度，可以解决金融市场上的预测问题，这个问题困扰人们上百年，至今也没有一个完美的解决方法。

金融市场的数据是动态的，在这个动态的市场上，你知道的确定性的东西越多，你的胜算就越大，下面来找找看都有哪些确定性的东西，第一个是每天的交易时间，这个是确定的，很多人忽略了这一点，4个小时的交易时间，数据是按照每秒两次来传输的，这样一天的交易结果构成的形态一定是三角形，并且这个三角形的面积是28800（4*3600*2），知道了三角形的面积，那么如果事前知道了三角形的低【高】，那么另一个高【底】就出来了，从而实现了金融市场的预测。

那么如何事前知道三角形的低或高呢，这就用到了如何描述数据的集中程度的问题，传统的路子肯定不行，因为均值在交易时间内不停的变化，找不到确定的东西，用最大频数对应的数表示均值，完美的解决了这个问题，见下图（数据和代码见后面）：

上图的下半部分是用传统的均值计算一天的交易时间内均值的变化，可以看出，这个均值直到交易介绍才变得确定，上半部分是用频数的最大值对应的数据作为均值，可以看出在11:01后价格就一直稳定在2221，一直到收盘也没有改变，有半天的时间给你确认这个均值的有效性，因为事前知道了均值的频数，那么三角形的高也就提前预知了，那么计算三角形的底，估计小学生都会计算了。

代码：


library(data.table)

library(ggplot2)

library(gridExtra)

#勒贝格意义下的均值

 dat = read.csv("C:/temp/tick.csv")[c(1,2)]

 names(dat) = c("Time","Price")

 data = as.data.table(dat)

 data = data[,Time := substr(Time,12,16)]

 data = data[,list(Freq = .N),by = list(Time,Price)]

 data = data[,nb := rep(1:length(unique(Time)),rle(Time)$lengths)]

 

 myfun = function(x) subset(data,nb <= x)[,list(Freq = sum(Freq)),by = Price][which.max(Freq)]

 da = rbindlist(lapply(1:length(unique(data[,nb])),myfun))

 da = da[,':='(Time = unique(data[,Time]),nb = 1:nrow(da))]

 num = da[cumsum(rle(da[,Price])$lengths),]

 

 p = ggplot(data = da,mapping = aes(x = nb,y = Price))

 p1 = p + geom_line(size = 1) +

   geom_text(aes(nb,Price,label = Price),data = num,vjust = -1,size = 5) +

   geom_text(aes(nb,Price,label = Time),data = num,vjust = 1,size = 5,colour ='red') +

   theme(axis.text.x = element_blank()) + theme(axis.text.y = element_blank()) +

   theme(axis.ticks = element_blank()) + ylim(c(min(daPrice)−1,max(daPrice)+1)) +

   xlab("") + ylab("") + theme(plot.background = element_rect(fill = "green")) +

   theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank()) +

   theme(panel.grid.major.y = element_blank(), panel.grid.minor.y = element_blank())


#黎曼意义下的均值

 dat = read.csv("C:/temp/tick.csv")[2]

 names(dat) = "Price"

 dat$nb = 1:nrow(dat)

 data = as.data.table(dat)

 myfun = function(x) mean(subset(data,nb <= x)[,Price])

 da = sapply(1:nrow(data),myfun)

 Rmean = data.frame(nb = 1:nrow(dat),Mean = da)

 p = ggplot(data = Rmean,mapping = aes(x = nb,y = Mean))

 p2 = p + geom_line(size = 1) + xlab("") + ylab("") +

      theme(plot.background = element_rect(fill = "green"))

grid.arrange(p1, p2)

数据可以到这里下载：
http://blog.sciencenet.cn/home.php?mod=space&uid=556556&do=blog&id=872813

HarryYu

这个问题真的是解出来了，包括开灯关灯的那个问题，表面上看没有解出来，实际上是解出来了。这样吧，我给出这个解。

由时间和灯组成的系统已经不是一维的，很明显时间是一维的，假定这个系统的维数d=1.2（先假定这样一个数，总之不超过2，具体是多少就是另外一个学科所研究的事情了，就不用管了。）
那么灯的状态就会有多个序列，
开关
开关开
开关开关
开关开关开
.....
这些序列中任一个序列所占有的时间越来越少，那么总有一个序列，其最后一个状态所使用的时间率先落入(d*最小状态时间)的范围内，比如是“开关开关”这个序列先落入这个时间，那么一个明显的事实出现了，所有以“关”结尾的序列都会收敛于这个时间，那么2分钟以后的状态就是关的。

我给出的那个维度的原理，是一个从哲学也好感性认识也好或者一个其他的叫法也好，先去绕过这样一个问题，这样就很方便了。

HarryYu

想了一下，这个帖子应该正面的回复

楼主提到了最大熵，那么楼主的意思是把一天的价格作为一个“单位1”，表示在这样一个样本空间里面，所有价格的概率和等于1，在这样的假设条件下使用最大熵的话，就是用“频率”计算的，用样本空间的频率进行计算。最大熵的缺点是得不出“等腰三角形”。这么说的意思其实也很无聊，就是当一个人正好处在对最大熵理解的比较好的时候，正好是最容易接受“等腰三角形”的时候，因为最大熵的特征空间也很“特定”，比如应用在自然语言处理上面，分词啊，tag啊，都是经过几千年历史沉淀的“稳定空间”，不会有什么太大的变化，随便拿个什么语料库就可以的。

itellin

你还是没有明白我的意思。
用最大频数对应的值作为统计上均值的替代，可以解决所有分布的参数问题，也就是说现行的所有分布的参数都是多余的，因为不管什么分布，都可以表示为一个三角形，受傅立叶的启发，傅立叶将任何波形都可以用正弦波叠加的思路用在频域里面就是任何三角形都可以用等腰三角形叠加。
不过傅立叶的思路是从时域角度出发的，所以有滞后性，应用于动态系统还是有问题，基本上是从泥潭换成沼泽了。但是从频域角度分解三角形，则具有事前性，利用对称性就可以做到事前的估算，分解三角形用程序做不是很难，只要稍微发点力就可以实现，一旦把三角形分解了，很多东西都看见了。

HarryYu

又一次感觉每个字都很正确。

我觉得您说来说去还是“形象化”了一个“特征函数”

这个做法就跟当年祖冲之父子在房间里面“割圆”一样，copy一下刘徽的“割圆术”，做的精细一些，提出一个“密率”，还有一个“约率”，领先了欧洲好像一千多年，始终还是“术”......

HarryYu

其实就是按照“特征函数”的思路条件下（用二维的思路计算一维/1.58维），可以进行这个积分，ds^2 = sigma^2 * s^2 * dt
其中sigma是方差率，s是价格，等式右边的积分在0<t<1的边界下正好等于方差，等式的左边表示积分结果是一个2维面积，考虑什么形状的面积等于方差，
1. 标准正态（方差1，面积1）
2. 等腰直角（不必有1的限制）

基于楼主是正确的，反而包含了一个“等腰直角三角形”是一个更好的"building block"的事实。呵呵。并且等腰直角三角形在数学表达上还可以使用矩阵，等等。

mengchen

“统计学意义是上的均值是描述数据的集中程度的” 第一句就错了 :cry: 改一下吧

itellin

[未知用户]

那就麻烦你出正确的答案。

HarryYu

[未知用户]

此方差非彼方差

HarryYu

我发现有个模型叫做LWR（局部权重回归），把这个模型先求导再求和再乘上1/2，正好就是积分即面积公式，
“最大频率”正好对应“最大似然”，也正好是“特征”，而方差正好就是“低”

楼主除了能拿出更有说服力的证据，那么楼主的“事前”和“协同过滤”没什么本质区别，协同我看了一下，求距离，然后就紧邻了（相当于根据等腰三角面积公式）已经具有“事前”了，然后就可以预测了也就开始做推荐了。

而SVM也应该具有类似特点，甚至深度学习，已经发现deep net“用一个很小的扰动可以产生分类的巨大误差”,http://www.zhihu.com/question/27608272

想想看，基本上不同领域其实也就是面临着同一个问题，就是把同一个问题用不同的盒子包装起来然后就可以宣布解决了这个问题，等腰三角被楼主搞成了其中之一，什么“Hessian阵是正定的解决了全局寻优”......

HarryYu

晚上又想了一下，楼主的这个思路里面有一个“等方差变化假设”，确实比较牛，不仅仅是个包装盒子的境界，失言失言。

adpose

楼主这个能用到通用股票数据吗？怀疑

HarryYu

这个问题的确是被楼主成功解决了，祝贺

我经过演算使自己相信
1. “等方差变化假设”的话，楼主的模型和LWR(局部权重回归)实际上是同一个模型
2. 用伽玛分布的方式表示方差的话，这个模型可以对持有期建模

说白了就是对纵轴价格进行刨分，横轴是时间，但是时间是累积的，用时间的累计表示价格变化的方差。

HarryYu

这个帖子认真的想了一下，还是有个明显的问题没有说清楚

我不是专业学统计的，但是从我的感觉中，我认为传统的统计在“均值”和“方差”的关系上具有不严谨的地方，不过先抛开这个理论上的辩论，仅仅取“均值”和“方差”在概念上的不同来说事，我发现这两个概念实际上是一个概念。

所以我认为这个帖子无论是声称“此均值非彼均值”，还是说“此方差非彼方差”，这两个说法只是在传统的统计上面依附了一个附加值，但是这个附加值总是依附在一个相同概念的不同类型上面，在一个自否定性上面缺少一个自统一性。

当我说“均值”和“方差”是一个概念的时候，不是说两者相同，两者仍然具有形式上的不同，（这样就可以包容统计上这两个概念），而且两者在形式上和传统的统计的定义仍然“一模一样”，这样的话，我发现“均值”和“方差”是一个概念既“廓清”了两者的关系，又“发现”了两者的关系。

说的如果实际一些，就是说如果用“正态”来概括两者的关系，那么正态为了“统一”这两者就显得需要以事后性作为牺牲（因为这两者正好也是事后的）。而如果“发现”这两者的关系就不需要事后性的意思是不需要“事后性”，甚至可以认为(推导出)正态也是一个result，和形式上的均值/形式上的方差一样。

由一个统一的形式(a)推导出三个形式上又不同的结果(b)，然后又在一个统一的逻辑体系(c)内进行说事。
我发现的就是a，我看到的传统的统计就是bc

这个帖子进一步推导一下，就是a

HarryYu

我把自己求得的形式带入泰勒公式，我的思路是可以通过重构泰勒公式的方式得出分布

我发现这个思路早就有人做了，就是伊藤引理，然后得出布莱克期权的微分方程，我就比较纳闷，我知道是求解这个微分方程，于是再次查看布莱克当年的论文，发现就是求解形如这个的微分方程：
df/dt=.......
得出f

我是已知df/dt构造f，f就是我想要得到的分布。

我于是很自然的想到了楼主寻找过的密度，发现分布意义的f!=f，前者忽略了二阶（包括二阶）以上的高阶小量，东西少了当然就出现密度了，就看少的是什么了，能不能忽略
等腰三角的意思是f~df/dt的期望，它的测度是等距的，也就是线性的

多说一句，这里比较有意思的是什么呢，布莱克当年得出的是分布，我得出的还是分布（不用求解微分方程，但是需要一定程度的动态规划），得出的都是分布，这就比较有意思了，我的形式具有事前性，看一看布莱克的形式是否具有事前性发现这个地方已经有很多很多很多很多探讨了

HarryYu

说一下事前性怎么消掉方差的？

设z=df/ds，可是看作股票价格对于看涨期权的影响，也就是价格变化对于价格方向的影响，这个值就是N(d1)，又称作套期保值率
设y=df/dt，这个y就是我求出的表达形式
N(d1)的表达形式含有方差，为了消掉方差，想办法用y的形式表示z

我的思路是y其实就是方差的一部分，也就是有y->N(d1)->z的关系，并且当y->0,z->0,如何表达这个关系我其实抄袭了别人的思路，z和y之间存在一个拉格朗日中值定理的普遍命题，在略去高阶小量的时候z和y的关系可以看作线性的
我自己的思路就是一旦写成f(s,t)的泰勒展开的形式，发现统计意义上的分布就是f，这里面存在一个迭代的过程，可以看作动态规划。也就是迭代的预测分布，不用再去管什么分布

itellin

娱乐一下：
小学的时候有一道应用题，时针和分针在一天的时间内重合几次，这是一个追击问题，经过一番折腾，可以计算出是22次；有一种拿不上台面的方法，转动手表的时针和分针，数一下重合几次，也能够得出同样的答案。
到了大学，还会遇到同样的问题，比如那个最大熵的计算，一番折腾可以算出来；
拿不上台面的方法是把对应曲线的众数求出来就行了。
前段时间看见几个搞笑的段子：
说联合利华引进了一条生产线自动封装香皂，但是在封装香皂的过程中有一个例外情况，就是机器会把空盒子也按照成品封装，于是厂家找了6个博士花费90万用了几周的时间，把这个问题个解决了；同样的问题而也出现在常州的一个乡镇企业，老板让他们的技术人员解决这个问题，结果这个技术员想了一晚上，第二天去超市花100多元买了一个电风扇，拿回来对着生产线吹，同样解决了问题。
一群学物理的博士在讨论一个问题，说是雨点从一万米的高空落下，问能否把人砸死，从势能，动能，重力加速度等方面进行计算，结果得出的答案有分歧，有的说能够砸死人；有的说不能砸死人，这时正好外面下雨，其中有一个人说，你自己出去转一圈，看看能否回来。

解决问题的方法很多，不一定要局限在传统的思维定势中。

HarryYu

我这么解的确有开历史主义倒车的感觉

但是我发现比如
y(t)=a+b*y(t-1)+sigma(t)*epsilon(t)
sigma(t)=c+d*sigma(t-1)+delta(t)
联立，a b c d是四个参数
这个形式咱看不懂，可以看来看去直觉就是这么搞能搞出结果吗，可是人家博士们就是这么搞，咱又不懂，又不能瞎掺和

所以就大胆的设想直接用泰勒展开的方式表达分布，这样的好处就是我不需要去“杜撰”分布，然后发现原来这招伊藤早就用过了，后来坚持这个思路没什么问题，于是查看布莱克的解法，果然发现这家伙打了一个很大的伏笔在里面，吭哧吭哧的能出来一个结果也很满意了，微分方程咱也不是很精通，收拾点布莱克的残芝麻剩谷子，发现他当年忽视掉的东东.......
拉格朗日的普遍命题就是抄袭，抄袭就抄袭吧，高级的咱又做不出来......

HarryYu

的确是还有一解

HarryYu

17楼娱乐的精神比较有意思，顺便说一下，这种娱乐有的时候太伤自尊了，拿那个电风扇的例子，很多人会承认这解决了问题，如果说把90万给那个技术员，别说90万了，就是9万人们也是绝对不同意的，那好吧，9千怎么样呢？我相信9千也不同意，因为我太理解那个技术员了，9千不行，9百吧，9百是有可能的，但是需要那个技术员作出工作总结，工作总结做出来了，老板会觉得这样的总结拿出来不上台面，怎么办呢，结果就是9百也不给了，那好吧，9十呢，9十的滑稽色彩比9百更甚，最后，9块，老板奖了一盒烟，9块钱，问题在于老板会奖励一盒烟，如果那个技术员头上还有一个什么技术主任，车间主任，质量主管，生产主任......那最后即使是9块钱也落不到那个技术员头上，这就是一个技术员应该做的工作，而且还花了公司100多块，报销的时候还要找他们签字呢。
那怎么着也能说道说道，那好吧，这个解决方案的性能怎么样呢，还是需要那个技术员自己出性能报告，出了报告以后出了问题谁负责呢？当然还是要这个技术员负责的，因为这是性能报告。