[LUCENE-6736] SmartChineseAnalyzer chops English tokens in a chinese-english mixed sentence. - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Closed
Priority: Major
Resolution: Invalid
Affects Version/s: 5.1
Fix Version/s: None
Component/s: modules/analysis
Labels:
- chinese
- tokenization
Environment:

linux Java 1.7

Lucene Fields:

New

Description

I am new with Lucene Analyzer. The following code has predefined the sentence in "testStr":
String testStr = "女单方面，王适娴second seed和头号种子卫冕冠军西班牙选手马林first seed同处1/4区，3号种子李雪芮和韩国选手Korean player成池铉处在2/4区，不过成池铉先要过日本小将(Japanese player)奥原希望这关。下半区，6号种子王仪涵若想晋级决赛secure position. congratulations.";

The printed tokenized result is:

女单方面王适娴 second seed 和头号种子卫冕冠军西班牙选手马林 first seed 同处 1 4 区 3 号种子李雪芮和韩国选手 korean player 成池铉处在 2 4 区不过成池铉先要过日本小将 japanes player 奥原希望这关下半区 6 号种子王仪涵若想晋级决赛 secur posit congratul

As you can see some long English tokens such as Japanese, position and congratulations are cut short in the tokenization process. I hope I didn't use it wrong.

Test code:

private static void testChineseTokenizer() {
String testStr = "女单方面，王适娴second seed和头号种子卫冕冠军西班牙选手马林first seed同处1/4区，3号种子李雪芮和韩国选手Korean player成池铉处在2/4区，不过成池铉先要过日本小将(Japanese player)奥原希望这关。下半区，6号种子王仪涵若想晋级决赛secure position. congratulations.";
Analyzer analyzer = new SmartChineseAnalyzer();
List<String> result = new ArrayList<String>();
StringReader sr = new StringReader(testStr);

try {
TokenStream stream = analyzer.tokenStream(null,sr);
CharTermAttribute cattr = stream.addAttribute(CharTermAttribute.class);
stream.reset();
while (stream.incrementToken())

{ String token = cattr.toString(); result.add(token); }

stream.end();
stream.close();
sr.close();
analyzer.close();
stream = null;
for (String tok: result)

{ System.out.print(" " + tok); }

System.out.println();
}
catch(IOException e)

{ // not thrown b/c we're using a string reader... }

}

Attachments

Activity

People

Assignee:: Unassigned

Reporter:: Wayne Xin

Votes:: 0 Vote for this issue

Watchers:: 2 Start watching this issue

Dates

Created:: 13/Aug/15 21:19

Updated:: 28/Aug/22 14:40

Resolved:: 14/Aug/15 06:39