一种基于规则和统计的新词发现的基本流程
新词发现是指从大量文本中挖掘出以前很少组合,现在组合在一起并被人们赋予涵义的一些词语组合。
此基本流程可用于发现领域类的新词,基本流程涉及的一些算法:
模型算法:VSM
统计算法:bi-gram(二元语法)、N-gram(N元语法)、
构词能力
构词模式
– 分词并统计训练语料中每一个切分词的词频
– 采用计算机统计和人工判别的方法,获得训练语料中的所有新词(复合词)
– 统计其词频
– 统计新词(复合词)中出现的每个词的总词频
– 利用公式计算词的构词能力(包含单字词和多字词)
– 针对新词中的所有词,分别计算其在新词中出现的总次数,以及其在词首、词尾和词中出现的总次数
– 计算词的构词模式
根据这些统计信息,可以制定符合自己领域的规则信息。