Closed ljsking closed 15 years ago
>> require "stanfordparser"
=> true
>> preproc = StanfordParser::DocumentPreprocessor.new
=>
>> puts preproc.getSentencesFromString("This is a sentence. So is this.")
This is a sentence .
So is this .
영어는 한문장으로 나누지만 한글은 아직 나누지 않는닷!
문장을 나눌 경우 버그가 있음. 일단은 포기
현재 여러 문장인 영어를 tagger에 넣으면 일단 한문장으로 가정하고 파싱하기 때문에 제대로된 결과가 안나옴.
preproc.getSentencesFromString 는 어레이의 어레이다. 최상위의 어레이는 문장 어레이를 가지고 있으며 문장 어레이는 edu.stanford.nlp.ling.Word를 가지고 있다.
한문장으로만 할 것인가?