使用ictclas4j过程中产生的问题。
lycoder
2010-03-02
我主要的工作是:读取pdf文档的内容并对其进行中文分词。其中,分词这里我使用的是ictclas4j版本。 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Unknown Source) at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source) at java.lang.AbstractStringBuilder.append(Unknown Source) at java.lang.StringBuilder.append(Unknown Source) at org.ictclas4j.segment.SegTag.split(SegTag.java:125) at emily.function.TextExtraction.classifyWord(TextExtraction.java:43) at emily.function.TextExtraction.getExtractText(TextExtraction.java:26) at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60) at emily.function.Main.main(Main.java:16)
2.另外,我在测试过程中还注意到: if(wis != null) 否则有时会报出越界错误。
|