使用ictclas4j过程中产生的问题。

lycoder 2010-03-02

我主要的工作是:读取pdf文档的内容并对其进行中文分词。其中,分词这里我使用的是ictclas4j版本。
在使用过程中出现的问题如下:

1.在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善),但是到了分词这一步上面有时候会报错:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Unknown Source)
    at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
    at java.lang.AbstractStringBuilder.append(Unknown Source)
    at java.lang.StringBuilder.append(Unknown Source)
    at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
    at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
    at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
    at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
    at emily.function.Main.main(Main.java:16)

 

2.另外,我在测试过程中还注意到:
在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

if(wis != null)

否则有时会报出越界错误。

 

 

Global site tag (gtag.js) - Google Analytics