xinguanxk
分出来的中文词有这样的情况“产总值\n就业 声称 失业
3 6 3
实际 实验 使\n数量
10 5 7
使用 示\n计量经济学\n 世界
”
相信很多人做分词都遇到过,想请教一下有什么方法语句能够消除 :-)
outqin
在 Linux 或者 Mac 下用 tm 包。
xinguanxk
[未知用户]
这样子啊,因为到时候公司要用Hadoop,应该是放Linus上面所以应该可以,但是目前在自己的机器上面做点demo就比较难看了,只想问如果空格只是涉及到输出美观程度不影响分类结果吗?还有你用过tmcn包没?这个包我一直在本身的文档还有网上都找不到完整的说明····· :cry:
outqin
没有,印象中,好像有一个 幻灯片,有简单介绍。
xinguanxk
[未知用户]
哦,那个会议的pdf版ppt我有,里面很不清楚的因为太精简,作者的个人网站貌似几个月没登陆或者发东西了
humphrey
分词后用空格间隔是为了适合tm包制作语料库,如果楼主需要无空格,把分词后的文件重新读取提取一下呢?
xinguanxk
[未知用户]
我读取的分完词的更死,都是乱码~~~ :cry: