一个分词的设想。。。。大家帮看下是否可行

ansjsun 2009-04-12

废话不多说。。现在假设有一个辞典。。。

北京

北京人

北京猿人

北平

构成的辞典要求成一个Set集合。。集合里面存放了这个对象

package ansj.sun.pojo;

import java.util.HashSet;

public class Char {
	char c ;
     //他的下面一些字
	HashSet<Char> chars ;  
//他是否是一个词
	boolean isWords ;
//他是否有下一个
	boolean hasNext ;
	@Override
	public int hashCode() {
		// TODO Auto-generated method stub
		return c;
	}
	public Char(char c, HashSet<Char> chars, boolean isWords , boolean hasNext) {
		super();
		this.c = c;
		this.chars = chars;
		this.isWords = isWords;
		this.hasNext = hasNext ;
	}
}

 首先第一个对象是

Char c1 = new Char('北',new HashSet<Char>(),false,true) ;

构造 过程

Char c2 = new Char('京',new HashSet<Char>(),true,true) ;

Char c3 = new Char('平',new HashSet<Char>(),true,false) ;

Char c4 = new Char('人',new HashSet<Char>(),true,true) ;

c1.chars.add( c2) ;

c1.chars.add( c3) ;

c2.chars.add( c4) ;

现在问题是把这个对象存进去了。。我没办法把他找出来了。。。总不能遍历寻找吧。。

如果有了这个辞典。。因该在正文中能够很快的找到文章。。我觉得是哈。。希望大家能把一些分词的算法统计起来。。

ansjsun 2009-04-13
以上问题弄了个map解决了...现在词典构建起来了..感觉加载挺快的..正在写分词过程..等写完了..放上代码哈
yy8354 2009-04-16
请多看看别人的论文或者实现 参考后缀数组构造的词典 或者是双TRIE树
ansjsun 2009-04-19
谢谢哈。。我一直以为是双踹树呢。。
ansjsun 2013-10-21
yy8354 写道
请多看看别人的论文或者实现 参考后缀数组构造的词典 或者是双TRIE树

看到自己刚出道时候的一个帖子...好幼稚哈
Global site tag (gtag.js) - Google Analytics