这个不太属于机器学习吧。。属于统计学习或者统计方法更恰当一点。毕竟这方面的文章都是发在那几个传统的统计杂志上的。
指点不敢说,我也还在学习这套理论,目前LASSO这块进展不是那么大了,但是还是有很多令人期待的问题没有解决,所以还是有很多坑可以去填的。要想好好学习这块的话,先读那几篇state-of-the-art的文章,如下:
最基本那篇
http://www-stat.stanford.edu/~tibs/lasso.html
yuan ming 然后提出的 group lasso
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.79.2062
zou hui的elastic net,可以同时自动选取相关程度比较大的变量(LASSO不能)
http://www-stat.stanford.edu/~hastie/TALKS/enet_talk.pdf
zou hui 提出的adative lasso,试图避免lasso对参数的shrunkage
http://www.stat.umn.edu/~hzou/Papers/adaLasso.pdf
jianqing fan 2001 年提出的另外一种 nonconvex的惩罚项 -- SCAD
http://www.orfe.princeton.edu/~jqfan/papers/01/penlike.pdf
其学生08年时接着解决了SCAD的算法问题 -- 实际上就是一种adaptive lasso
http://www.stat.umn.edu/~hzou/Papers/onestep.pdf
这方面文献太多了,我给的这几篇是影响比较大的,你可以看看08年这篇的reference,在里面可以找到一些有意思的线索。另外,LASSO还被广泛应用在graphical model上,有兴趣可以看看这篇
http://www.stats.ox.ac.uk/~meinshau/consistent.pdf
http://arxiv.org/abs/0811.4463
http://www-stat.stanford.edu/~tibs/ftp/graph.pdf
这三篇是目前文献里公认的里程碑式的文章--关于gaussian graphical model的。