<<Nonlinear Regression with R>> 读书笔记

zwdbordeaux

经常会遇到非线性回归的数据，近来正好得到一本好书(其实手头的书太多了，反倒没有用心去读)，不厚 150页，大体翻了一下很符合自己的需要，所以读的时候写点备忘录。请注意，这个笔记是在我已经有了比较初步的运用nls()方程的基础上摘录的，所以可能并不适合所有人参考。感兴趣者请阅读原著，一起讨论。

第二章：Getting started

1.    coef(fit.nls): estimated parameter values.

2.    fitted(fit.nls): fitted values, use the same x value as in the experimental dataset

3.    with(dataframe, function): 当对dataframe中的变量进行操作的时候可以运用，定义需要进行操作的dataframe,接着给出操作的方程。比如：datanew<-with(L.minor, seq(min(conc),max(conc),length=10)).

4.    predict(fit.nls, data.frame(x=..)), predicted values: interpolate between or extrapolate beyond the original x. 注意第二个选项部分自变量名称必须与之前拟合的自变量一致。

5.    predict(fit.nls)==fitted(fit.nls), 当predict的自变量缺省时与fitted功能一样。

6.    nlsContourRss(fit.nls): nlstools包中的等高线图(contour plot), 运用该图可以把所有参数组合中产生相同RSS( Residual sums of squares)的组合连在一条线上。但是这个方法目前只能用于参数数量为2的情况。plot(nlsContourRss(fit.nls),col=FALSE, nlev=10)#  nlev等高线的水平

7.    glm(), generalized linear models (广义线性模型) are a collection of statistical models where it is possible to transform the mean function in a way that a linear model is recovered on some transformed scale. GLM的优势是它不需要定义起始值(Starting values). glm(formula=rate~I(1/conc),family=gaussian(“inverse”),data=L.minor)

第三章: Starting values and self-starters（最需要学习和补充的一章）

在用nls的时候，最让人头痛的问题之一就是初始值（starting value）的设定，一个设定不好就会出现错误，不能有效得到需要估计的参数。本章给出了几个比较有效的方法。

1.    curve(), 对一个方程画图， plot(x,y), curve(function(x, p1,p2),add=TRUE)

2.    当对参数的取值范围有大体的估测时，可以运用grid search, 以获得能够使得RSS最小的参数组合，然后运用该组合作为nls的starting values.

3.    expand.grid(): creat a data frame from all combinations of factors. Expand.grid(list(vector1, vector2, vector2)))

4.    nls2包中的nls2，它与nls的区别仅在satart和method两个选项设置上有所不同。在nls2中，一个data frame（比如说通过expand.grid得到的dataframe）或者nls2()拟合的结果都可以赋予start; method=”brute-force”定义对RSS进行计算。

5.    假设一个方程y=f(x,a,b,c),然后大体知道a[a1,a2],b[b1,b2],c[c1,c2]的范围，那么可以首先通过don<-expand.grid(list(a=seq(a1,a2,by=),b=seq(b1,b2,by=),c=seq(c1,c2,by=)))获得一个dateframe, 然后运用library(nls2)中的fit1<-nls2(y~f(x,a,b,c),start=don2,data=data1,algorithm=”brute-force”), 然后再运用fit1作为初始值，对数据再次拟合得到最终的结果, fit2<- nls2(y~f(x,a,b,c),start=fit1,data=data1,algorithm=”brute-force”)

6.    Self-starter function: 当重复运用同一个非线性回归模型的时候，便可以运用self-starter function providing starting value. 针对同一个方程可以构建不同的self-starter function.

7.    内置自我起始方程(built-in self-starter function),在R中带有一些自带的常用非线性方程的自我起始方程。在运用他们进行nls的时候不需要对start进行设置，用来很是方便。需要注意的是在运用这些方程的时候，参数顺序需要和R中给定的顺序一致，比如: fit3<-nls(y~SSmicmen(x, Vm, K), data=don1).其中SSmicmen(xdata, Vm, K)是米氏方程的自我启动函数。

8.    自定义self-starter function: 这很明显是一个非常复杂的过程。我看完了本书的介绍部分，似乎也明白了他们介绍的内容，但是还是觉得没有完全吃透。其中涉及到了几个很重要的概念，initial value routine, call，还没有完全理解，而运用selfStart()构建方程的过程也让我有些难以理解。比如通常情况下我们构建一个方程就是fun1<-function(x, p1,p2),然后用这个方程的时候就是resul<-fun1(x=data1,p1=a, p2=b)；但是selfStart创建的方程，比如fun2<-selfStart(model, initial(mCall, LHS，data), c(“p1”,”p2”)),然后运用的时候竟然是 with(data2, fun2(x, a,b)). 后面运用getInitial()倒是可以理解，当然最后的运用的fun2进行nls的过程似乎也可以理解，如果我能够弄清楚为什么是with(data2, fun2(x, a,b))的话。按照这本书的文献，我读了 <<Modern applied  statistics with S>>这本书中关于自我启动方程的构建，该书的作者提到这个过程需要一点技术，而我也没有看明白他说的方法，还需要再读。

爱不需要表达

顶！！

BTW，lz能否把书的电子版上传呢？谢谢！！

yinjj

好书，期待上传书籍！！！thanks

爱不需要表达

http://ifile.it/1rg0z2c/nolinr.rar

或

http://download.cos.name/book/Statistical%20Software/R/?download=Nonlinear+Regression+with+R.pdf

详见08年的帖子=）

http://cos.name/cn/topic/13398

zwdbordeaux

多谢楼上分享书的连接!

希望大家可以一起讨论学习心得.

我昨天学的东西今天就马上用上了，这样才有进一步学习的动力[s:11]

ps:意外发现被设置为精华贴，有些惶恐，哈哈。

zwdbordeaux

今天的时候正好在处理一组数据，知道可以用Gompertz这个方程拟合，正好R中包含有一个self-starter function 的Gompertz方程SSgompertz(x, Asym, b2,b3)。于是兴冲冲的尝试了一下，结果还是初始值有问题，没有办法得到有效估计！看了一下这个方程的样子，和我经常用的那个方程有所区别，所以放弃！

接着，我换了另外一个更加具有生物学意义的方程，还是3个参数，其中一个可以大体估计，另外两个只有大体的范围，所以我用了expand.grid,

 <br />
don1<-read.csv(file.choose(),header=TRUE) <br />
grid.1<-expand.grid(list(w0=c(1),mu0=seq(0.01,0.1,by=0.002),d=seq(0.01,0.1,by=0.002))) <br />
library(nls2) <br />
fit2<-nls2(dw~w0*(exp((mu0*(1-exp(-d*(dd)))/d))),data=don1,start=grid.1,algorithm="brute-force") <br />
fit3<-nls(dw~w0*(exp((mu0*(1-exp(-d*(dd)))/d))),data=don1,start=list(w0=1,mu0=0.036,d=0.01),trace = FALSE, algorithm =  "port") <br />

然后我就得到了很好的拟和！学以致用的感觉还是比较爽的！

我把拟合数据上传到了下面的地点。

后面争取把自己用的这个方程的self-starter function写一下。

陈沉

楼主又开好贴；）

终于忙完这一小阵子了，打算再抽一些时间出来学R，尽量争取写下一篇论文时用R处理数据，HOHO [s:11]

另，冒昧提醒楼主注意休息啊；）

Quote： [ 此帖被zwdbordeaux在2009-04-28 03:40重新编辑]

yihui

贴图直接贴图片的地址，在PhotoBucket中就是direct link。或者贴IMG Code。在首页，鼠标移到图片上就能看见一系列发图的方法了啊。

zwdbordeaux

我花了两个晚上很专心的阅读，总算把一篇文章（Watkins P. and Venables B. 2006. Non-linear regression for optimizing the separation of carboxylic acids. R News 6(3): 2-7. ）的每一个R命令都弄得差不多明白了（自认为,还需要大家确认！）。最后发现确实值得深入学习一下。除了进一步理解了对nls的self-starter function的编写之外，还学到了一些非常好用，而且又能够在今后经常用到的functions, 比如 eval(), with(), matplot(), matpoints(), transform(),以及对nls的update().

整个阅读的过程伴随着把文中的命令输入R跑一下，然后看帮助，然后把一些小的部分拆解开跑着看等方法，现在把命令贴在下面，详细的学习备忘，改日贴上。

# input data <br />
don<-data.frame(ph=c(3.79,3.79,4.14,4.38,4.57,4.74,4.74,4.92,5.11,5.35,5.67,5.67), <br />
ba=c(34.21,34.27,25.85,20.46,15.61,12.42,11.42,9.64,7.3,5.15,3.18,3.18), <br />
oaba=c(15.06,14.64,14.24,13.33,12.61,11.33,10.55,10.15,9.12,6.36,3.92,3.92), <br />
paba=c(8.85,8.33,8.00,7.58,6.82,5.76,5.76,5.09,4.15,2.88,1.6,1.58), <br />
hoba=c(14.3,14.52,12.3,10.76,8.91,7.24,7.06,5.94,4.52,3.09,1.68,1.62)) <br />
<br />
# transform pH to [+H] <br />
tmp<-transform(don,H=10^(-ph)) <br />
# 非常怪异的方法，我费了不少时间去弄明白文章每句话的意思，详见后。 <br />
<br />
##### so called "partially linear" models ###### <br />
ba.nls<-nls(ba~cbind(1,H/ka)/(1+H/ka),data=tmp,algorithm="plinear",start=c(ka=0.0001),trace=TRUE) <br />
<br />
## the trace display <br />
#13.24040 :  0.000100  3.534884 54.813991 <br />
#7.178175 : 4.295106e-05 5.944938e-01 4.197216e+01 <br />
#1.439102 : 5.602806e-05 1.640794e+00 4.525283e+01 <br />
#1.274617 : 5.908893e-05 1.836970e+00 4.597673e+01 <br />
#1.274311 : 5.923005e-05 1.845664e+00 4.600979e+01 <br />
#1.274311 : 5.923158e-05 1.845757e+00 4.601015e+01 <br />
#估计得到的参数 <br />
coef(ba.nls) <br />
#看一下拟合效果 <br />
plot(don$ph,don$ba,ylim=c(0,40)) <br />
lines(don$ph,fitted(ba.nls),col=2) <br />
<br />
##############Self-starting function############## <br />
##作者说 The initial value routine has to use a somewhat obscure convention way. <br />
## This convention initially appears to be obscure, but it becomes less so with time! <br />
##可见我觉得晦涩有情可原！ <br />
<br />
# Initial value routine <br />
SSba.init<-function(mCall, data,LHS){ <br />
# <br />
#k<-(k1+k0*H/ka)/(1+H/ka); H=10^(-ph) <br />
# <br />
<br />
H<-10^(-eval(mCall[["ph"]],data)) <br />
k<-eval(LHS,data) <br />
ka<-as.vector(coef(lsfit(cbind(H,-k),H*k,int=TRUE))[3]) <br />
b<-coef(nls(k~cbind(1,H/ka)/(1+H/ka),data=data.frame(k=k,H=H), <br />
algorithm="plinear", <br />
start=c(ka=ka))) <br />
names(b)<-mCall[c("ka","k1","k0")] <br />
b <br />
} <br />
<br />
#To understand the calcalation of ka <br />
#?lsfit()   # least square estimate <br />
don<-transform(don,H=10^-(-ph)) <br />
xx<-with(don,cbind(H,-ba)) <br />
yy<-with(don,H*ba) <br />
ls.1<-lsfit(xx,yy,int=TRUE) # int==intercept <br />
coef(ls.1) # the order is "intercept", "H","K" <br />
##Then I understand why it is "coef(ls.1)[3]" <br />
<br />
<br />
<br />
<br />
## self-starting model <br />
<br />
SSba<-selfStart(~(k1+k0*10^(-ph)/ka)/(1+10^(-ph)/ka), <br />
initial=SSba.init, <br />
parameters=c("ka","k1","k0"), <br />
template=function(ph,k1,k0,ka){} <br />
) <br />
<br />
#run the model <br />
ba.ss<-nls(ba~SSba(ph,k1,k0,ka),data=don,trace=TRUE) <br />
<br />
# check the fitting (the same as "partially linear") <br />
lines(don$ph,fitted(ba.ss),col=4) <br />
<br />
# note the final "point"! <br />
oaba.ss<-update(ba.ss,oaba~.) <br />
paba.ss<-update(ba.ss,paba~.) <br />
hoba.ss<-update(ba.ss,hoba~.) <br />
<br />
<br />
points(don$ph,don$oaba,pch=2) <br />
lines(don$ph,fitted(oaba.ss),col=2,lty=2) <br />
<br />
## display the fitting <br />
form<-Quote((k1+k0*10^(-ph)/ka)/(1+10^(-ph)/ka)) <br />
<br />
at<-function(x,m) c(x,as.list(coef(m))) <br />
phdata<-list(ph=seq(3.5,6,len=250)) <br />
phdata<-transform(phdata,ba=eval(form,at(phdata,ba.ss)), <br />
                  ba=eval(form,at(phdata,ba.ss)), <br />
                  oaba=eval(form,at(phdata,oaba.ss)), <br />
                  paba=eval(form,at(phdata,paba.ss)), <br />
                  hoba=eval(form,at(phdata,hoba.ss)) <br />
                  ) <br />
<br />
# plot the fitted lines <br />
with(phdata,matplot(ph,cbind(ba,oaba,paba,hoba),col=1:4,type="l",lty=1:4)) <br />
## points <br />
with(don,matpoints(ph,cbind(ba,oaba,paba,hoba),col=1:4,pch=1:4,cex=0.8)) <br />

ps:

1)多谢益辉帮我传了图片!

2)很高兴看到熟人陈沉，为什么让俺注意休息？难道是看我发贴时间较晚? 估计是时差的缘故 [s:13]

3)突然意识到想说感谢“谢益辉”不容易[s:11]

zwdbordeaux

关于上面命令的解释：

#line9

transform(data, newcolumn=function), 这个function可以给原来的数据自动添加一列，这个列可以在数据其它列的基础上获得。比如知道了一列数据的sd,想计算se的时候，直接transform(data,se=sd/num)就可以了！

#line 13 所谓的“partially linear”model

这种方式的运用nls我是第一次遇到，虽然现在似乎“明白”了“plinear”这种方法的含义，但是还需要进一步学习。我相信在<<Nonlinear Regression with R>>书后面的章节中会有更详细的介绍，这里暂且存疑。

本文中对这段的介绍可以从方程自身的特点说起：

k=(k1+k0*[H]/ka)/(1+[H]/ka)

调整一下可以得到：

k=k1/(1+[H]/ka)+k0*([H]/ka)/(1+[H]/ka)

这样如果ka已知的话，上面方程就变成了“线性方程”，这个需要想象成矩阵比较好理解。这个时候，把1/（1+[H]/ka）和（[H]/ka）/(1+[H]/ka)作为两个自变量（X1,X2），然后k就是这两个变量的线性方程(k=k1*X1+k0*X)，线性参数为k1,k0.

通过这样变形之后有两重好处：1）在nls的时候只需要提供部分参数（非线性参数，这里的ka）的初始值；2）算法更加稳定（太深，不懂！）

随后作者给出了一个ka的初始值，当我读到这里的时候，我就问自己这个初始值怎么算出来的？？这个问题在后面的self-starting function 中找到了答案（见后）。

总而言之，这个nls中，function被定义成了矩阵格式（即所谓’model matrix’），矩阵的列通常是非线性参数(这里是ka)的函数。

通过nls(algorithm=”plinear”)之后，得到的递归结果在line 15-21，结果的第一列是当前的RSS, 后面三行是参数估计的值，参数从非线性参数开始，后面的两个是线性参数。因为命令中没有给定专门的非线性参数的名称，所以系统自动赋予他们.lin1和.lin2的名称。

#line 25, 26

检查了一下这种方法下的拟合效果，看起来很不错。

感觉这一部分最精华的就是那个”matrix model”的构建，以及指导构建这个模型的思想。看来我需要补充学习一下矩阵矩阵相关的知识。

zhuhl

dingyixia xinshou

bjt

好帖子是一定要加精华的,而且老谢动作一般都比较快. [s:11]

zwdbordeaux

前面的书中已经提到了self-starting fun的2个构成部分(initial value routine和self-starting object)，通过这里的阅读有了更进一步的理解。

Initial value routine, 就是一个遵循特殊定义语法的，提供如何从原始数据获得起始参数值的函数。这个函数的构建需要遵循很严格的要求，因为这样才可以与后面的 selfStart()以及最后的nls()无缝连接：

Name.ss<-function(mCall, data, LHS) {…..}

其中的mCall, data,LHS是确定的名称，这样做是为了和后面的self-starting object 连接的时候可以顺利进行。

mCall: 用来确保所有nls() call中的所有arguments都是运用他们的全称引用。

LHS：nls()函数中模型的左边的变量，也就说应变量。

data：nls()中运用的数据。

回到上面的例子：

#line 34, function()中的三个元素，mCall, data, LHS 需要保持不变。

#line 36, 对现在的initial value routine没有实际意义，只是提醒需要的模型是个什么样子。

#line 39, 把pH值转变为氢离子浓度。这里需要注意的是 eval()和 mCall的运用

eval()的应用：

eval()是在某个环境（environment）下对提到的表达式进行运行。开始不能理解所谓的“环境”，后来似乎隐约了解了。

比如line39中就是说需要从data这个环境中提取mCall[[“predictor”]]这个变量。

后面line89-93中eval()的应用更加明确的表明了这一点，不过那个时候expression 和environment都是通过自定义的函数完成，可是说比较高级和巧妙的运用。

后来通过察看eval(expression, environment)这个函数的帮助文件发现，如果不抓们的定义environment，那么缺省的就是当前运行的那个环境。

于是我运用bjt《153分钟学会R》中的一个例子对这个想法进行了验证：

bjt文中的48如何将字符串转变为命令执行：

x<-1:10 #在当前环境

a<-"print(x)"

eval(parse(text=a)) # 运用缺省environment

如果不在当前环境下定义x,

rm("x") # 将x去掉

a<-"print(x)"

eval(parse(text=a))

#Error in print(x) : object "x" not found

这个时候如果定义一下environment

eval(parse(text=a),data.frame(x=1:10))

就可以再次得到原来的结果。（终于明白了eval()中environment的意思!）

#line 40, 将k赋值为原始数据中的应变量

#line 41, 运用lsfit()求ka的初始值，也就是我在#line 13时碰到的问题的答案。看来有的时候存疑读下去是个不错的选择。

lsfit(x,y), the least square estimate of b in the model y=Xb+error

同样把原始的方程去掉分母转化之后可以变为

k[H]=k1*ka-k*ka+[H]k0

如果我们把k[H] 当作应变量，将-k 和[H] 看作应变量，那么这就是一个二元一次方程，-k的系数就是我们需要的ka, [H]的系数就是ko, 而截距是k1*ka，我们把注意力集中在ka的估计上。

这个样就可以理解#line41的命令，注意lsfit输出的系数值按照：截距，x1,x2…的顺序，这也就为什么作者用了 coef(lsfit(…))[3], 因为-k在那个地方相当于x2,加上最前面的截距所以位居第三个。

#line 42-44是之前（line 13）“partially linear”理念的再现。

#line 45是将求得的nls()中参数的初始值命名为与nls()中一致的名字，注意mCall应用的必要性或强制性。



Self-starting model,这个部分我在读<<Nonlinear Regression with R>>的时候心存疑虑，在读了这篇文章之后也似乎明白了。

#line 63-67

selfStart(model, initial, parameters, template), 这里最后的template让我明白了为什么在运行这个最终的函数是pH, k1, k0 和ka的函数。

# line70-73, 就是运行

#line 75,这个update在当量的数据拟和过程中显然非常有用。让我看了生出相见恨晚的感觉，当年我可是copy到手软！！

#line 85-95的eval()和transform()值得记住，经常运用。

#line 97-99的with()和matplot()，matpoints(), matlines()好用异常，以后都不要再points(),lines()的copy到手软了！

陈沉

恭喜楼主又有新的体会，也恭喜我自己又积累了更好的学习材料~~~~

原以为手头的这个子课题马上便可完成，只是，突然发现实际情况较我预想的远远要复杂，，，贴子先收着，具体请教楼主估计要得七月了~~~

R~~~

zwdbordeaux

书早就读完了，可惜最近实在太忙，没有来得及把笔记整理出来！

不过，我越读越觉得这是一本不可多得的，浅入深出的书。逻辑非常清晰，易读，我把每章分开打印出来，每天睡觉前在床上读半章，周末洗衣服等待的时候读个半章，就这样不知不觉中读完了。有些章节，我甚至看了几篇。

最后一章关于grouped data非常有用，我完成论文过程中对于类似的grouped数据都是一个一个做的，难怪一篇文章的背后都有3-4千行命令 [s:12]

现在手头又有两本好书等着读，《data mining with R》和《A practical guide to ecological modelling>>。可惜除了这些数据处理方面的书，还有很多非常好的专业书需要读，所以.....慢慢来了[s:11]

ypchen

非常好鼓励大家发读书笔记

xyzfinance

看到楼主提到grid search，正好有两个问题想请教楼主及各位高手。我想用GMM方法估计一个非线性计量模型的参数，请问：（1）R里已有现成的命令可以实现吗？（2）我现在是自己编程实现的，其中，我想用grid search方法求GMM目标函数的最小值，请问R里有命令实现grid search吗？我搜到网上有一个用R做grid search的包，但很可惜，只能用到linux上。谢谢各位楼主及各位高手。