outqin
[未知用户]
应该不是分词的问题,tm包好像对中文支持不太好,不用分词包,直接输中文也会有错:
library(tm)
xx<-c(
"进入", "一个", "平衡", "时代", "现在", "是", "住宅", "价格上涨",
"太快", "政府", "采用", "政策", "方式", "调控", "这些", "资金",
"就", "有", "往", "商业地产", "走", "的", "趋势", "因为", "商业地产",
"没有", "任何", "政治化", "的", "风险", "也", "没有", "社会舆论",
"压着", "政府", "调控", "它", "这种", "情况", "下", "资金", "的",
"流动", "情况", "就", "反", "了", "本来", "应该", "是", "更",
"多", "的", "资金", "和", "土地", "去", "建", "住房", "如果",
"现在", "的", "资金", "趋势", "要", "回流", "到", "商业地产",
"这", "实际上", "跟", "宏观调控", "的", "目的", "又", "背道而驰",
"了", "第二", "商业地产", "是", "一个", "专门", "的", "领域",
"跟", "开发", "住宅", "不", "一样", "做", "商业地产", "的", "开发商",
"好多", "都", "垮掉", "了", "奥运会", "之前", "北京市", "20",
"个", "烂尾楼", "全是", "商业地产", "商业地产", "经营", "不好",
"就是", "烂尾楼", "开发技术", "经验", "和", "开发", "住宅", "是",
"不", "一样", "的", "商业地产", "首要", "是", "地段", "要", "好",
"而", "住宅", "稍微", "远", "一点", "影响", "也", "不大", "三里屯",
"SOHO", "夏日", "庆典", "第一", "财经", "周刊", "王娜", "如果",
"你", "是", "眼下", "30", "多岁", "的", "白领", "您", "的", "目标",
"会", "是", "怎样", "的", "还有", "什么样", "的", "忠告", "送给",
"这个", "年龄", "的", "人", "潘石屹", "我", "不", "太", "喜欢",
"白领", "这个", "词", "这个", "词", "没有", "个性", "我们", "每个",
"人", "都", "是", "非常", "独特", "的", "笼统", "地用", "一个",
"词去", "定位", "我", "相信", "稍微", "有", "一点", "个性", "的",
"人", "都", "会", "反感", "这样", "一个", "词", "都", "会", "反感",
"把", "自己", "划分", "到", "这", "一类", "去", "从", "职业",
"来说", "我", "可能", "是", "设计师", "医生", "老师", "记者",
"那", "我", "就", "做", "一个", "好", "的", "记者", "好", "的",
"医生", "这是", "社会", "上", "需要", "的", "现在", "这个", "时代",
"确实", "是", "一个", "特别", "好", "的", "时代", "也", "是")
corpus = Corpus(VectorSource(xx))
dtm_psy = TermDocumentMatrix(corpus)
tdm = DocumentTermMatrix(corpus,control = list(wordLengths = c(1, Inf)))
inspect(tdm)
Terms
Docs 20 30 soho 奥运会\n 把\n 白领 北京市\n 背道而驰 本来 不\n 不大 不好 财经 采用
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0