一个分词的设想。。。。大家帮看下是否可行
ansjsun
2009-04-12
废话不多说。。现在假设有一个辞典。。。 北京 北京人 北京猿人 北平 构成的辞典要求成一个Set集合。。集合里面存放了这个对象 package ansj.sun.pojo; import java.util.HashSet; public class Char { char c ; //他的下面一些字 HashSet<Char> chars ; //他是否是一个词 boolean isWords ; //他是否有下一个 boolean hasNext ; @Override public int hashCode() { // TODO Auto-generated method stub return c; } public Char(char c, HashSet<Char> chars, boolean isWords , boolean hasNext) { super(); this.c = c; this.chars = chars; this.isWords = isWords; this.hasNext = hasNext ; } } 首先第一个对象是 Char c1 = new Char('北',new HashSet<Char>(),false,true) ; 构造 过程 Char c2 = new Char('京',new HashSet<Char>(),true,true) ; Char c3 = new Char('平',new HashSet<Char>(),true,false) ; Char c4 = new Char('人',new HashSet<Char>(),true,true) ; c1.chars.add( c2) ; c1.chars.add( c3) ; c2.chars.add( c4) ; 现在问题是把这个对象存进去了。。我没办法把他找出来了。。。总不能遍历寻找吧。。 如果有了这个辞典。。因该在正文中能够很快的找到文章。。我觉得是哈。。希望大家能把一些分词的算法统计起来。。 |
|
ansjsun
2009-04-13
以上问题弄了个map解决了...现在词典构建起来了..感觉加载挺快的..正在写分词过程..等写完了..放上代码哈
|
|
yy8354
2009-04-16
请多看看别人的论文或者实现 参考后缀数组构造的词典 或者是双TRIE树
|
|
ansjsun
2009-04-19
谢谢哈。。我一直以为是双踹树呢。。
|
|
ansjsun
2013-10-21
yy8354 写道 请多看看别人的论文或者实现 参考后缀数组构造的词典 或者是双TRIE树
看到自己刚出道时候的一个帖子...好幼稚哈 |