Index: src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex
===================================================================
--- src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex	(revision 610999)
+++ src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex	(working copy)
@@ -71,7 +71,7 @@
 %}
 
 // basic word: a sequence of digits & letters
-ALPHANUM   = ({LETTER}|{DIGIT}|{KOREAN})+
+ALPHANUM   = ({LETTER}|[:digit:])+
 
 // internal apostrophes: O'Reilly, you're, O'Reilly's
 // use a post-filter to remove possesives
@@ -105,23 +105,16 @@
 P	         = ("_"|"-"|"/"|"."|",")
 
 // at least one digit
-HAS_DIGIT  =
-    ({LETTER}|{DIGIT})*
-    {DIGIT}
-    ({LETTER}|{DIGIT})*
+HAS_DIGIT  = ({LETTER}|[:digit:])* [:digit:] ({LETTER}|[:digit:])*
 
 ALPHA      = ({LETTER})+
 
+// From the JFlex manual: "the expression that matches everything of <a> not matched by <b> is !(!<a>|<b>)"
+LETTER     = !(![:letter:]|{CJ})
 
-LETTER     = [\u0041-\u005a\u0061-\u007a\u00c0-\u00d6\u00d8-\u00f6\u00f8-\u00ff\u0100-\u1fff\uffa0-\uffdc]
+// Chinese and Japanese (but NOT Korean, which is included in [:letter:])
+CJ         = [\u3100-\u312f\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\u3300-\u337f\u3400-\u4dbf\u4e00-\u9fff\uf900-\ufaff\uff65-\uff9f]
 
-DIGIT      = [\u0030-\u0039\u0660-\u0669\u06f0-\u06f9\u0966-\u096f\u09e6-\u09ef\u0a66-\u0a6f\u0ae6-\u0aef\u0b66-\u0b6f\u0be7-\u0bef\u0c66-\u0c6f\u0ce6-\u0cef\u0d66-\u0d6f\u0e50-\u0e59\u0ed0-\u0ed9\u1040-\u1049]
-
-KOREAN     = [\uac00-\ud7af\u1100-\u11ff]
-
-// Chinese, Japanese
-CJ         = [\u3040-\u318f\u3100-\u312f\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\u3300-\u337f\u3400-\u4dbf\u4e00-\u9fff\uf900-\ufaff\uff65-\uff9f]
-
 WHITESPACE = \r\n | [ \r\n\t\f]
 
 %%
Index: src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.java
===================================================================
--- src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.java	(revision 610999)
+++ src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.java	(working copy)
@@ -1,4 +1,4 @@
-/* The following code was generated by JFlex 1.4.1 on 12/18/07 9:22 PM */
+/* The following code was generated by JFlex 1.4.1 on 1/10/08 7:56 PM */
 
 package org.apache.lucene.analysis.standard;
 
@@ -25,8 +25,8 @@
 /**
  * This class is a scanner generated by 
  * <a href="http://www.jflex.de/">JFlex</a> 1.4.1
- * on 12/18/07 9:22 PM from the specification file
- * <tt>/Volumes/User/grantingersoll/projects/lucene/java/lucene-clean/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex</tt>
+ * on 1/10/08 7:56 PM from the specification file
+ * <tt>c:/svn/lucene/java/trunk/src/java/org/apache/lucene/analysis/standard/StandardTokenizerImpl.jflex</tt>
  */
 class StandardTokenizerImpl {
 
@@ -43,14 +43,64 @@
    * Translates characters to character classes
    */
   private static final String ZZ_CMAP_PACKED = 
-    "\11\0\1\0\1\16\1\0\1\0\1\15\22\0\1\0\5\0\1\3"+
-    "\1\1\4\0\1\7\1\5\1\2\1\7\12\11\6\0\1\4\32\10"+
-    "\4\0\1\6\1\0\32\10\105\0\27\10\1\0\37\10\1\0\u0568\10"+
-    "\12\12\206\10\12\12\u026c\10\12\12\166\10\12\12\166\10\12\12\166\10"+
-    "\12\12\166\10\12\12\167\10\11\12\166\10\12\12\166\10\12\12\166\10"+
-    "\12\12\340\10\12\12\166\10\12\12\u0166\10\12\12\266\10\u0100\10\u0e00\10"+
-    "\u1040\0\u0150\14\140\0\20\14\u0100\0\200\14\200\0\u19c0\14\100\0\u5200\14"+
-    "\u0c00\0\u2bb0\13\u2150\0\u0200\14\u0465\0\73\14\75\10\43\0";
+    "\11\0\1\0\1\14\1\0\1\0\1\13\22\0\1\0\5\0\1\4"+
+    "\1\2\4\0\1\10\1\6\1\3\1\10\12\1\6\0\1\5\32\11"+
+    "\4\0\1\7\1\0\32\11\57\0\1\11\12\0\1\11\4\0\1\11"+
+    "\5\0\27\11\1\0\37\11\1\0\u0128\11\2\0\22\11\34\0\136\11"+
+    "\2\0\11\11\2\0\7\11\16\0\2\11\16\0\5\11\11\0\1\11"+
+    "\213\0\1\11\13\0\1\11\1\0\3\11\1\0\1\11\1\0\24\11"+
+    "\1\0\54\11\1\0\10\11\2\0\32\11\14\0\202\11\12\0\71\11"+
+    "\2\0\2\11\2\0\2\11\3\0\46\11\2\0\2\11\67\0\46\11"+
+    "\2\0\1\11\7\0\47\11\110\0\33\11\5\0\3\11\56\0\32\11"+
+    "\5\0\13\11\25\0\12\1\7\0\143\11\1\0\1\11\17\0\2\11"+
+    "\11\0\12\1\3\11\23\0\1\11\1\0\33\11\123\0\46\11\u015f\0"+
+    "\65\11\3\0\1\11\22\0\1\11\7\0\12\11\4\0\12\1\25\0"+
+    "\10\11\2\0\2\11\2\0\26\11\1\0\7\11\1\0\1\11\3\0"+
+    "\4\11\42\0\2\11\1\0\3\11\4\0\12\1\2\11\23\0\6\11"+
+    "\4\0\2\11\2\0\26\11\1\0\7\11\1\0\2\11\1\0\2\11"+
+    "\1\0\2\11\37\0\4\11\1\0\1\11\7\0\12\1\2\0\3\11"+
+    "\20\0\7\11\1\0\1\11\1\0\3\11\1\0\26\11\1\0\7\11"+
+    "\1\0\2\11\1\0\5\11\3\0\1\11\22\0\1\11\17\0\1\11"+
+    "\5\0\12\1\25\0\10\11\2\0\2\11\2\0\26\11\1\0\7\11"+
+    "\1\0\2\11\2\0\4\11\3\0\1\11\36\0\2\11\1\0\3\11"+
+    "\4\0\12\1\25\0\6\11\3\0\3\11\1\0\4\11\3\0\2\11"+
+    "\1\0\1\11\1\0\2\11\3\0\2\11\3\0\3\11\3\0\10\11"+
+    "\1\0\3\11\55\0\11\1\25\0\10\11\1\0\3\11\1\0\27\11"+
+    "\1\0\12\11\1\0\5\11\46\0\2\11\4\0\12\1\25\0\10\11"+
+    "\1\0\3\11\1\0\27\11\1\0\12\11\1\0\5\11\44\0\1\11"+
+    "\1\0\2\11\4\0\12\1\25\0\10\11\1\0\3\11\1\0\27\11"+
+    "\1\0\20\11\46\0\2\11\4\0\12\1\25\0\22\11\3\0\30\11"+
+    "\1\0\11\11\1\0\1\11\2\0\7\11\72\0\60\11\1\0\2\11"+
+    "\14\0\7\11\11\0\12\1\47\0\2\11\1\0\1\11\2\0\2\11"+
+    "\1\0\1\11\2\0\1\11\6\0\4\11\1\0\7\11\1\0\3\11"+
+    "\1\0\1\11\1\0\1\11\2\0\2\11\1\0\4\11\1\0\2\11"+
+    "\11\0\1\11\2\0\5\11\1\0\1\11\11\0\12\1\2\0\2\11"+
+    "\42\0\1\11\37\0\12\1\26\0\10\11\1\0\42\11\35\0\4\11"+
+    "\164\0\42\11\1\0\5\11\1\0\2\11\25\0\12\1\6\0\6\11"+
+    "\112\0\46\11\12\0\47\11\11\0\132\11\5\0\104\11\5\0\122\11"+
+    "\6\0\7\11\1\0\77\11\1\0\1\11\1\0\4\11\2\0\7\11"+
+    "\1\0\1\11\1\0\4\11\2\0\47\11\1\0\1\11\1\0\4\11"+
+    "\2\0\37\11\1\0\1\11\1\0\4\11\2\0\7\11\1\0\1\11"+
+    "\1\0\4\11\2\0\7\11\1\0\7\11\1\0\27\11\1\0\37\11"+
+    "\1\0\1\11\1\0\4\11\2\0\7\11\1\0\47\11\1\0\23\11"+
+    "\16\0\11\1\56\0\125\11\14\0\u026c\11\2\0\10\11\12\0\32\11"+
+    "\5\0\113\11\225\0\64\11\54\0\12\1\46\0\12\1\6\0\130\11"+
+    "\10\0\51\11\u0557\0\234\11\4\0\132\11\6\0\26\11\2\0\6\11"+
+    "\2\0\46\11\2\0\6\11\2\0\10\11\1\0\1\11\1\0\1\11"+
+    "\1\0\1\11\1\0\37\11\2\0\65\11\1\0\7\11\1\0\1\11"+
+    "\3\0\3\11\1\0\7\11\3\0\4\11\2\0\6\11\4\0\15\11"+
+    "\5\0\3\11\1\0\7\11\202\0\1\11\202\0\1\11\4\0\1\11"+
+    "\2\0\12\11\1\0\1\11\3\0\5\11\6\0\1\11\1\0\1\11"+
+    "\1\0\1\11\1\0\4\11\1\0\3\11\1\0\7\11\u0ecb\0\2\11"+
+    "\52\0\5\11\12\0\1\12\124\12\10\12\2\12\2\12\132\12\1\12"+
+    "\3\12\6\12\50\12\3\12\1\0\136\11\21\0\30\11\70\0\20\12"+
+    "\u0100\0\200\12\200\0\u19b6\12\12\12\100\0\u51a6\12\132\12\u048d\11\u0773\0"+
+    "\u2ba4\11\u215c\0\u012e\12\322\12\7\11\14\0\5\11\5\0\1\11\1\0"+
+    "\12\11\1\0\15\11\1\0\5\11\1\0\1\11\1\0\2\11\1\0"+
+    "\2\11\1\0\154\11\41\0\u016b\11\22\0\100\11\2\0\66\11\50\0"+
+    "\14\11\164\0\3\11\1\0\1\11\1\0\207\11\23\0\12\1\7\0"+
+    "\32\11\6\0\32\11\12\0\1\12\72\12\37\11\3\0\6\11\2\0"+
+    "\6\11\2\0\6\11\2\0\3\11\43\0";
 
   /** 
    * Translates characters to character classes
@@ -63,13 +113,13 @@
   private static final int [] ZZ_ACTION = zzUnpackAction();
 
   private static final String ZZ_ACTION_PACKED_0 =
-    "\1\0\1\1\4\2\1\3\1\1\6\0\2\2\6\0"+
-    "\1\4\4\5\2\6\2\0\1\7\1\0\1\7\3\5"+
-    "\6\7\3\5\1\10\1\0\1\11\2\0\1\10\1\11"+
-    "\1\0\2\11\2\10\2\5\1\12";
+    "\1\0\1\1\2\2\1\3\1\1\12\0\1\2\2\4"+
+    "\1\0\4\5\1\6\2\4\2\7\1\5\1\0\1\5"+
+    "\1\0\2\10\1\0\1\10\2\0\1\11\1\0\1\4"+
+    "\1\12\1\4\2\5\2\4\1\0\1\10";
 
   private static int [] zzUnpackAction() {
-    int [] result = new int[61];
+    int [] result = new int[50];
     int offset = 0;
     offset = zzUnpackAction(ZZ_ACTION_PACKED_0, offset, result);
     return result;
@@ -94,17 +144,16 @@
   private static final int [] ZZ_ROWMAP = zzUnpackRowMap();
 
   private static final String ZZ_ROWMAP_PACKED_0 =
-    "\0\0\0\17\0\36\0\55\0\74\0\113\0\17\0\132"+
-    "\0\151\0\170\0\207\0\226\0\245\0\264\0\303\0\322"+
-    "\0\341\0\360\0\377\0\u010e\0\u011d\0\u012c\0\u013b\0\u014a"+
-    "\0\u0159\0\u0168\0\u0177\0\207\0\u0186\0\u0195\0\u01a4\0\u01b3"+
-    "\0\u01c2\0\u01d1\0\u01e0\0\u01ef\0\u01fe\0\u020d\0\u021c\0\u022b"+
-    "\0\u023a\0\u0249\0\u0258\0\u0267\0\u0276\0\u0285\0\u0294\0\u02a3"+
-    "\0\u02b2\0\u02c1\0\u02d0\0\u02df\0\u02ee\0\u02fd\0\u012c\0\341"+
-    "\0\170\0\u011d\0\u030c\0\u031b\0\u032a";
+    "\0\0\0\15\0\32\0\47\0\15\0\64\0\101\0\116"+
+    "\0\133\0\150\0\165\0\202\0\217\0\234\0\251\0\266"+
+    "\0\303\0\320\0\335\0\352\0\367\0\u0104\0\u0111\0\u011e"+
+    "\0\u012b\0\u0138\0\u0145\0\217\0\u0152\0\u015f\0\u016c\0\u0179"+
+    "\0\u0186\0\101\0\u0186\0\u0193\0\u01a0\0\u01ad\0\u01ba\0\u01c7"+
+    "\0\u01d4\0\u01e1\0\u01ee\0\u01fb\0\u0208\0\u0215\0\u0222\0\u022f"+
+    "\0\u023c\0\u0249";
 
   private static int [] zzUnpackRowMap() {
-    int [] result = new int[61];
+    int [] result = new int[50];
     int offset = 0;
     offset = zzUnpackRowMap(ZZ_ROWMAP_PACKED_0, offset, result);
     return result;
@@ -127,51 +176,45 @@
   private static final int [] ZZ_TRANS = zzUnpackTrans();
 
   private static final String ZZ_TRANS_PACKED_0 =
-    "\10\2\1\3\1\4\1\5\1\6\1\7\1\10\1\2"+
-    "\20\0\1\11\1\12\1\13\1\14\2\15\1\16\1\17"+
-    "\1\4\1\20\1\6\5\0\1\21\1\0\1\22\2\23"+
-    "\1\24\3\4\1\6\4\0\1\11\1\25\1\13\1\14"+
-    "\2\23\1\24\1\20\1\4\1\20\1\6\5\0\1\26"+
-    "\1\0\1\22\2\15\1\16\4\6\21\0\1\2\10\0"+
-    "\1\27\1\0\1\27\14\0\1\30\1\31\1\32\1\33"+
-    "\13\0\1\34\1\0\1\34\14\0\1\35\1\36\1\35"+
-    "\1\36\13\0\1\37\2\40\1\41\13\0\1\16\2\42"+
-    "\5\0\1\11\1\26\1\13\1\14\2\15\1\16\1\17"+
-    "\1\4\1\20\1\6\4\0\1\11\1\21\1\13\1\14"+
-    "\2\23\1\24\1\20\1\4\1\20\1\6\13\0\1\43"+
-    "\2\44\1\45\13\0\4\36\13\0\1\46\2\47\1\50"+
-    "\13\0\1\51\2\52\1\53\13\0\1\54\1\44\1\55"+
-    "\1\45\13\0\1\56\2\31\1\33\4\0\1\11\6\0"+
-    "\1\27\1\0\1\27\6\0\1\57\1\0\1\22\2\60"+
-    "\1\0\1\56\2\31\1\33\5\0\1\61\1\0\1\22"+
-    "\2\62\1\63\3\31\1\33\5\0\1\64\1\0\1\22"+
-    "\2\62\1\63\3\31\1\33\5\0\1\65\1\0\1\22"+
-    "\2\60\1\0\4\33\5\0\1\66\2\0\1\66\2\0"+
-    "\1\35\1\36\1\35\1\36\5\0\1\66\2\0\1\66"+
-    "\2\0\4\36\5\0\1\60\1\0\1\22\2\60\1\0"+
-    "\1\37\2\40\1\41\5\0\1\62\1\0\1\22\2\62"+
-    "\1\63\3\40\1\41\5\0\1\60\1\0\1\22\2\60"+
-    "\1\0\4\41\5\0\1\63\2\0\3\63\3\42\6\0"+
-    "\1\67\1\0\1\22\2\15\1\16\1\43\2\44\1\45"+
-    "\5\0\1\70\1\0\1\22\2\23\1\24\3\44\1\45"+
-    "\5\0\1\67\1\0\1\22\2\15\1\16\4\45\5\0"+
-    "\1\15\1\0\1\22\2\15\1\16\1\46\2\47\1\50"+
-    "\5\0\1\23\1\0\1\22\2\23\1\24\3\47\1\50"+
-    "\5\0\1\15\1\0\1\22\2\15\1\16\4\50\5\0"+
-    "\1\16\2\0\3\16\1\51\2\52\1\53\5\0\1\24"+
-    "\2\0\3\24\3\52\1\53\5\0\1\16\2\0\3\16"+
-    "\4\53\5\0\1\71\1\0\1\22\2\15\1\16\1\43"+
-    "\2\44\1\45\5\0\1\72\1\0\1\22\2\23\1\24"+
-    "\3\44\1\45\5\0\1\65\1\0\1\22\2\60\1\0"+
-    "\1\56\2\31\1\33\13\0\1\73\1\33\1\73\1\33"+
-    "\13\0\4\41\13\0\4\45\13\0\4\50\13\0\4\53"+
-    "\13\0\1\74\1\45\1\74\1\45\13\0\4\33\13\0"+
-    "\4\75\5\0\1\57\1\0\1\22\2\60\1\0\4\33"+
-    "\5\0\1\71\1\0\1\22\2\15\1\16\4\45\5\0"+
-    "\1\66\2\0\1\66\2\0\4\75\3\0";
+    "\1\2\1\3\7\2\1\4\1\5\1\6\1\2\16\0"+
+    "\1\3\1\0\1\7\1\0\1\10\2\11\1\12\1\3"+
+    "\4\0\1\3\1\13\1\14\1\15\1\16\2\17\1\20"+
+    "\1\21\17\0\1\2\1\0\1\22\7\0\1\23\4\0"+
+    "\1\24\7\0\1\24\4\0\1\25\7\0\1\26\4\0"+
+    "\1\27\7\0\1\30\14\0\1\31\4\0\1\32\7\0"+
+    "\1\33\14\0\1\34\4\0\1\24\7\0\1\35\4\0"+
+    "\1\36\7\0\1\37\4\0\1\40\7\0\1\20\4\0"+
+    "\1\3\1\13\1\41\1\15\1\16\2\17\1\20\1\21"+
+    "\4\0\1\22\1\0\1\42\1\0\1\10\2\11\1\12"+
+    "\1\22\4\0\1\22\1\0\1\43\1\0\1\10\2\17"+
+    "\1\20\1\23\4\0\1\24\1\0\1\44\2\0\1\44"+
+    "\2\0\1\24\4\0\1\25\1\0\1\11\1\0\1\10"+
+    "\2\11\1\12\1\25\4\0\1\25\1\0\1\17\1\0"+
+    "\1\10\2\17\1\20\1\26\4\0\1\27\1\0\1\12"+
+    "\2\0\3\12\1\27\4\0\1\27\1\0\1\20\2\0"+
+    "\3\20\1\30\5\0\1\13\6\0\1\31\4\0\1\32"+
+    "\1\0\1\45\1\0\1\10\2\46\1\47\1\32\4\0"+
+    "\1\32\1\0\1\50\1\0\1\10\2\51\1\0\1\52"+
+    "\4\0\1\24\1\0\1\44\2\0\1\44\2\0\1\35"+
+    "\4\0\1\36\1\0\1\46\1\0\1\10\2\46\1\47"+
+    "\1\36\4\0\1\36\1\0\1\51\1\0\1\10\2\51"+
+    "\1\0\1\37\4\0\1\40\1\0\1\47\2\0\3\47"+
+    "\1\40\4\0\1\32\7\0\1\52\4\0\1\53\7\0"+
+    "\1\53\4\0\1\54\7\0\1\54\4\0\1\55\7\0"+
+    "\1\55\4\0\1\56\7\0\1\56\4\0\1\57\7\0"+
+    "\1\60\4\0\1\61\7\0\1\61\4\0\1\32\1\0"+
+    "\1\62\1\0\1\10\2\51\1\0\1\52\4\0\1\53"+
+    "\1\0\1\44\2\0\1\44\2\0\1\53\4\0\1\54"+
+    "\1\0\1\43\1\0\1\10\2\17\1\20\1\54\4\0"+
+    "\1\55\1\0\1\17\1\0\1\10\2\17\1\20\1\55"+
+    "\4\0\1\56\1\0\1\20\2\0\3\20\1\56\4\0"+
+    "\1\57\1\0\1\62\1\0\1\10\2\51\1\0\1\57"+
+    "\4\0\1\57\1\0\1\50\1\0\1\10\2\51\1\0"+
+    "\1\57\4\0\1\61\1\0\1\51\1\0\1\10\2\51"+
+    "\1\0\1\61\4\0\1\57\7\0\1\57\3\0";
 
   private static int [] zzUnpackTrans() {
-    int [] result = new int[825];
+    int [] result = new int[598];
     int offset = 0;
     offset = zzUnpackTrans(ZZ_TRANS_PACKED_0, offset, result);
     return result;
@@ -209,12 +252,12 @@
   private static final int [] ZZ_ATTRIBUTE = zzUnpackAttribute();
 
   private static final String ZZ_ATTRIBUTE_PACKED_0 =
-    "\1\0\1\11\4\1\1\11\1\1\6\0\2\1\6\0"+
-    "\7\1\2\0\1\1\1\0\16\1\1\0\1\1\2\0"+
-    "\2\1\1\0\7\1";
+    "\1\0\1\11\2\1\1\11\1\1\12\0\3\1\1\0"+
+    "\12\1\1\0\1\1\1\0\2\1\1\0\1\1\2\0"+
+    "\1\1\1\0\7\1\1\0\1\1";
 
   private static int [] zzUnpackAttribute() {
-    int [] result = new int[61];
+    int [] result = new int[50];
     int offset = 0;
     offset = zzUnpackAttribute(ZZ_ATTRIBUTE_PACKED_0, offset, result);
     return result;
@@ -353,7 +396,7 @@
     char [] map = new char[0x10000];
     int i = 0;  /* index in packed string  */
     int j = 0;  /* index in unpacked array */
-    while (i < 156) {
+    while (i < 1152) {
       int  count = packed.charAt(i++);
       char value = packed.charAt(i++);
       do map[j++] = value; while (--count > 0);
@@ -612,23 +655,23 @@
       zzMarkedPos = zzMarkedPosL;
 
       switch (zzAction < 0 ? zzAction : ZZ_ACTION[zzAction]) {
-        case 5: 
+        case 4: 
           { return HOST;
           }
         case 11: break;
         case 9: 
-          { return ACRONYM_DEP;
+          { return ACRONYM;
           }
         case 12: break;
         case 8: 
-          { return ACRONYM;
+          { return ACRONYM_DEP;
           }
         case 13: break;
         case 1: 
           { /* ignore */
           }
         case 14: break;
-        case 7: 
+        case 5: 
           { return NUM;
           }
         case 15: break;
@@ -640,11 +683,11 @@
           { return ALPHANUM;
           }
         case 17: break;
-        case 6: 
+        case 7: 
           { return COMPANY;
           }
         case 18: break;
-        case 4: 
+        case 6: 
           { return APOSTROPHE;
           }
         case 19: break;
