微博那些事儿

Created by 朱雪宁

微博能做什么?

微博关键字

  • 两大利器:Rweibo & Rwordseg
  • 文本清洗:分词、去停词、去人名
  • 文本处理:文本扩充(纳入转发评论内容)、词频统计
  • 可视化: wordcloud

粉丝地图

How to do?

微博名人那些事儿

名人们关心什么?

物以类聚

物以类聚

     Topics (high frequent terms):

  • 手机、分享、游戏、下载、电脑……
  • 学习、同学、大学、毕业、工作……
  • 设计、可爱、时尚、完美、搭配……
  • ……

人以群分

  • 兴趣向量:topic后验分布
  • 按照兴趣向量聚类:cluster package

人以群分

名人“风云榜”

  • How to define "relationship"? —— 转发
  • 信息传播力:Pagerank

Pagerank

名次

微博

Pagerank

李娜

1

0.5158

morgana牟丛

2

0.1263

冯喆小胖

3

0.0248

电商圈小七说

4

0.0130

易建联

5

0.0110

刘璇

6

0.0092

          ……

More information?

  • 网络结构 \(\rightarrow\) 结构结点(structure vertex)

    文本信息 \(\rightarrow\) 属性结点(attribute vertex)

  • 结构文本关系:doc-topic 矩阵
  • 增强图(augmented graph): Structure + Attribute
  • 信息转移权重:\(\alpha+\beta=1\)

矩阵表示

 

\[ \left(\begin{array}{cccc} P_s & B \\ A & O \end{array}\right) \]

 

\(P_s\)

原结构结点转移矩阵\(\times\alpha\)

\(A\)

结构点到属性点的转移矩阵(t(doc-topic矩阵)\(\times\beta\))

\(B\)

属性点到结构点的转移矩阵(列归一化doc-topic矩阵)

\(O\)

零矩阵

Model

  • 阻尼系数(Damping factor)
  • \[{\rm PageRank}(p_i) = \frac{1-d}{N} + d \sum_{p_j \in M(p_i)} \frac{{\rm PageRank} (p_j)}{L(p_j)}\]

  • Adjusted Damping Factor
  • structure \(\rightarrow\) structure

    \(d_1\)

    structure \(\rightarrow\) attribute

    \(d_2\)

    attribute   \(\rightarrow\)structure

    \(\alpha{d_1}+\beta{d_2}\)

    Assumption: the sum of all PageRanks is one

Model

\[PR= \left(\begin{array}{cccc} \frac{(1-d_1)\alpha}{N_s} \\ \frac{(1-d_1)\alpha}{N_s} \\ \dots \\ \frac{(1-d_2)\beta}{N_b} \\ \frac{(1-d_2)\beta}{N_b} \end{array}\right) + \left(\begin{array}{cccc} p_s & b \\ a & O \end{array}\right)\times{PR} \]

     Top Topics:

  • 设计、时尚、可爱、搭配、系列……
  • 比赛、冠军、足球、武汉、篮球……
  • 手机、分享、游戏、下载、电脑……
  • 电影、时代、故事、导演、青春……
  • 今年、银行、金融、银行、政策……
  • ……

人们爱看什么电影?

电影评分

联系方式

谢谢!