博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一般分词策略
阅读量:6332 次
发布时间:2019-06-22

本文共 732 字,大约阅读时间需要 2 分钟。

  hot3.png

l         第一种,默认的单字切分。这种分词策略实现起来最简单,举个例子,有以下句子:“我们在吃饭呢”,则按字切分为[][][][][][]。按这种方法分词所得到的term是最少的,因为我们所使用的汉字就那么几千个,但随便所索引的数据量的增大,索引文件的增长比例却比下面的几种模型都要大,虽然其召回率是很高的,但精确率却非常低,而且一般情况下性能也是最差的。

l         第二种,二元切分,即以句子中的每两个字都作为一个词语。继续拿“我们在吃饭呢”这个句子作例子,用二元切分法会得到以下词:[我们][们在][在吃][吃饭][饭呢]。这种切分方法比第一种要好,精确率提高了,召回率也没降低多少(实际上两者都不高,太中庸了)。

l         第三种:按照词义切分。这种方法要用到词典,常见的有正向最大切分法和逆向最大切分法等。我们再拿“我们在吃饭呢”作为例子。使用正向切分法最终得到词语可能如下:[我们][在吃][][],而使用逆向最大切分法则可能最终得到以下词语:[我们][][吃饭][]。只要处理好在庞大的词典中查找词语的性能,基于词典的分词结果会挺不错。

l         第四种:基于统计概率切分。 这种方法根据一个概率模型,可以从一个现有的词得出下一个词成立的概率,也以“我们在吃饭呢”这个句子举个可能不恰当的例子,假设已经存在[我们]这个词语,那么根据概率统计模型可以得出[吃饭]这个词语成立的概率。当然,实际应用中的模型要复杂得多,例如著名的隐马尔科夫模型。

在实际的中文分词应用中,一般会将按词典切分和基于统计概率切分综合起来,以便消除歧义,提高精确率。

转载于:https://my.oschina.net/cnphp/blog/26206

你可能感兴趣的文章
限制www目录下显示目录
查看>>
python多线程之事件触发(线程间通信)
查看>>
Zabbix日志监控:Linux异常登录告警
查看>>
CentOS6.5下源码编译安装httpd2.4.23
查看>>
nginx反代+varnish缓存+后端LAMP平台集群实现
查看>>
自己centos7架设hexo网站
查看>>
C语言内力修炼与软件工程
查看>>
给源码服务写启动脚本
查看>>
Foundation 6 – 先进的响应式的前端开发框架
查看>>
两类半人,你需要的是裤腰带,还是金腰带?
查看>>
在服务器本地监控服务端口命令之ss
查看>>
asp.net ajax1.0基础回顾(三):UpdatePanel的基本用法
查看>>
zabbix proxy 配置
查看>>
发掘网红IP价值 微博、IMS联手启动Vstar战略
查看>>
科学家用AI分析6亿帧视频,研究果蝇行为同脑回路间的关系
查看>>
Linux最常用的20条命令
查看>>
利用批处理实现按当前日期创建目录并备份
查看>>
CentOS 7 firewalld取代 iptables
查看>>
马斯克:20年内方向盘将消失,AI是人类存在的最大风险
查看>>
计算机信息安全技术学习资料汇总
查看>>