http://code.google.com/p/ki-analyzer/
ki-analyzer是基于ik-analyzer修改而来的分词库。在我之前使用ik时,因为ik提供的分词效果不能满足我
的需求,就在ik之上做了一层封装。这种封装既丑陋并且低效,而随着我的分词需求和ik提供的效果渐行渐远,就打算着手修改ik词库,便有了ki-
analyzer。ki-analyzer当然不能适合所有人,就像ik-analyzer不能适合我一样,但如果你正在寻找一个开源的分词程序,可以看
看ki-analyzer是否能适合你,以多一种选择。
和ik-analyzer相比,已实现的ki-analyzer的特点如下:
- 对于汉字分词,ik除了支持基本词库匹配以外,还格外处理了可能存在的姓氏、后缀、量词的分析。如果可以将此
理解为词性标注,那么它显然做的不够彻底,最为重要的名词、动词、形容词没有被标注出来,使得这种分析毫无实用价值。所以,ki-analyzer直接去
掉了相关代码,将这些不可识别的汉字标注为TYPE_CJK_UNKNOWN。
2,ik只支持全中文的词
库,这使得诸如"酷6"、"乐phone"等不能被分成一个词。而我觉得,词库应该支持的不单单是汉字组合,而可以是任意有效字符的组合,也就说,支持的
是短语匹配,比如"酷6"、"c#"、".net"、"data
mine"都应该可以被切割出来。在我的主题词提取场景中,这种短语粒度的切割就很有必要,否则我只能在分词之上检查每个词条,看是否有构成短语的情况。
而就搜索应用来说,这种切割对于查询来说也会得到更好的效果。ki-analyzer对此做了支持。
3,ik内置了一个基本词库,并支持通过配置文件和程序接口外挂词库。ki-analyzer对此更
进一步,可以不使用程序提供的内置词库而在外置基本词库。另外,分出的词条Lexeme多出一个属性表示该词条是不是来自扩展词库的。以我的应用场景举
例,我除了有一个基本词库,还有一个扩展的IT领域词库,而在分词时,我是希望知道这个词条是来自哪个词库的,以便我做不同处理。
4,ik的IKSegmentation的构造函数有一个isMaxWordLength参数,表示
切出的词是不要最大粒度的。对于搜索应用来说,建索引时可以将isMaxWordLength=false,查询时将
isMaxWordLength=true。当isMaxWordLength=true,ik在输出词条前会过滤掉文本位置完全属于另一个词条的词条。
ki-analyzer将isMaxWordLength扩展成三个参数:isMaxCJKLength、isMaxLetterLength、
isMaxPhraseLength,可以针对应用场景分别设置。
ki-analyzer将要实现的功能:
- ki作者吐血推荐的IKQueryParser是个与或组合切词的parser,它对中文切词很合适,但对英
文切词,这种与或关系显然不如短语更合适。另外,受数量词的影响,IKQueryParser有时切出的词并不完整。因为我目前还没有将
ki-analyzer用到搜索场景中,所以对IKQueryParser还未做修改,接下来会做这方面的修改。
2,对于短语切词,将来会支持stemer功能。
ki-analyzer使用了maven,分成ki-core和ki-lucene两个包,目前ki-core已在测试使用中,计划成熟后会发布到nexus的仓库中。关于ki-analyzer的使用文档,后续会补充上。
分享到:
相关推荐
Elasticsearch 7.6.2 已集成ik分词器 解压后运行bin目录下,elasticsearch.bat文件
分享一下好东西,希望对大家有用。这个软件需要配合硬件来用。大家的支持,就是我继续的动力。
本文档简单介绍了中文分词流程,可以细入某个领域进行研究,但是,据了解,中文分词有很多框架了,其中采用C语言的哈工大自然语言处理实验室、有复旦大学的FNLP、有商业公司支持的HanLP、斯坦福大学的.......
内容直接拷贝进stopword.dic即可使用(2614行常用停用词包含中英文,符号等)
KI阈值差异图生成,用于SAR图像变化检测,生成差异图
夏普KI-DX70、KI-DX85使用说明
目的:尽管一致性影响基于芯针活检材料的Ki-67标记指数的实用性,但文献中尚未充分记录Ki-67在芯针活检和手术材料之间的可重复性。术前需要化疗。 这项研究的目的是揭示两种材料之间Ki-67的再现性和差异的原因。 ...
网上找到的,通过一组Rand解sim卡KI,比findki_0.5速度快多了!
Ki4a Project Ki4a lets you tunnel your android's traffic over SSH in a very easy way. This project uses binaries from other projects and those are under their respective licenses. OpenSSL OpenSSH ...
matlabpid(比例微分控制)kp,ki,kd讨论.pdfmatlabpid(比例微分控制)kp,ki,kd讨论.pdfmatlabpid(比例微分控制)kp,ki,kd讨论.pdfmatlabpid(比例微分控制)kp,ki,kd讨论.pdfmatlabpid(比例微分控制)kp,ki,kd讨论....
sim卡ki扫描破解全攻略.pdf
SimV0Ki分析器,已测试过 可用,V2卡是否可行不清楚
描述: Sonuscore lo • ki 是本地采样器 Instruments Kontakt 的虚拟库。该工具的压缩体积为 2.6 GB。钢琴提供五层力度参数和每个音符多达五个声音变化。 为了录制麦克风,在不同的位置使用了三个麦克风,因此创作...
为进一步提高固体废弃物钒钛钢渣(VTSS)吸附脱除Hg0性能,利用浸渍方法改性制取KBr/VTSS、KI/VTSS吸附剂,并运用XRD、SEM表征,在固定吸附床上研究了反应温度、烟气SO2、O2、H2O和改性剂负载量对Hg0脱除效率的影响。...
尽管Ki67增殖指数先前已与脑膜瘤等级相关,但尚未确定脑膜瘤患者与PTBE的明确关系。 目的:将瘤周围脑水肿与脑膜瘤Ki67增殖指数相关联。 患者与方法:对56名诊断为脑膜瘤的患者(47名女性,9名男性;平均年龄50.89...
实达BP670KI打印机驱动程序是一款可以有效解决实达BP670KI打印机在使用过程中出现的一些问题的驱动工具,本站提供了实达BP670KI打印机驱动下载地址,有需要的此款驱动程序的朋友们可以前来下载使用。 本驱动是实达...
详细说明sim卡破解过程,以及sim卡基础
广义Gamma模型及自适应KI阈值分割的SAR图像变化检测_高丛珊.pdf 文献提出了新的变化检测方法
介绍jsecurity 框架知识包括认证,授权,session DAO 等模块
描述: Sonuscore lo • ki 是本地采样器 Instruments Kontakt 的虚拟库。该工具的压缩体积为 2.6 GB。钢琴提供五层力度参数和每个音符多达五个声音变化。 为了录制麦克风,在不同的位置使用了三个麦克风,因此创作...