How to deal with underscore

johnmunir Wed, 03 Jul 2013 09:06:41 -0700

Hi,


In my schema.xml, I have the following settings:



      <analyzer>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" 
words="lang/stopwords_en.txt" enablePositionIncrements="true"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" 
generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="1" 
splitOnCaseChange="0" splitOnNumerics="1" stemEnglishPossessive="1" 
preserveOriginal="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" 
protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>



This does great job for most of my text, but one thing I does that I don't like 
is it won't replace underscores to spaces; it strips them.  For example, if I 
have "Solr_Lucene" it becomes "solrlucene" (one word).  What I want is two 
words "solr lucene".


Thanks


-MJ

How to deal with underscore

Reply via email to