一种基于规则和统计的新词发现的基本流程

新词发现是指从大量文本中挖掘出以前很少组合，现在组合在一起并被人们赋予涵义的一些词语组合。

此基本流程可用于发现领域类的新词，基本流程涉及的一些算法：

模型算法：VSM
统计算法：bi-gram(二元语法)、N-gram(N元语法)、
构词能力
构词模式

– 分词并统计训练语料中每一个切分词的词频
– 采用计算机统计和人工判别的方法，获得训练语料中的所有新词（复合词）
– 统计其词频
– 统计新词（复合词）中出现的每个词的总词频
– 利用公式计算词的构词能力（包含单字词和多字词）
– 针对新词中的所有词，分别计算其在新词中出现的总次数，以及其在词首、词尾和词中出现的总次数
– 计算词的构词模式

根据这些统计信息，可以制定符合自己领域的规则信息。

一种基于规则和统计的新词发现的基本流程

Related posts:

留下回复 取消回复

留下回复取消回复