RE: Best practice for KStemFilter query or index or both?

Markus Jelsma Thu, 25 Sep 2014 13:29:26 -0700

Hi - most filters should be used both sides, especially stemmers, accent 
foldings and obviously lowercasing. Synonyms only on one side, depending on how 
you want to utilize them.


Markus

 
 
-----Original message-----
> From:eShard <zim...@yahoo.com>
> Sent: Thursday 25th September 2014 22:23
> To: solr-user@lucene.apache.org
> Subject: Best practice for KStemFilter query or index or both?
> 
> Good afternoon,
> Here's my configuration for a text field.
> I have the same configuration for index and query time.
> Is this valid? 
> What's the best practice for these query or index or both?
> for synonyms; I've read conflicting reports on when to use it but I'm
> currently changing it over to at indexing time only.
> 
> Thanks,
> 
>     <fieldType name="text_general" class="solr.TextField"
> positionIncrementGap="100" autoGeneratePhraseQueries="true">
>       <analyzer type="index">
>         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
>         <filter class="solr.WordDelimiterFilterFactory"
>                 generateWordParts="1"
>                 generateNumberParts="1"
>                 catenateWords="0"
>                 catenateNumbers="0"
>                 catenateAll="0"
>                 preserveOriginal="1"
>                 />    
>               <filter class="solr.StandardTokenizerFactory"/>
>         <filter class="solr.StopFilterFactory" ignoreCase="true"
> words="stopwords.txt" enablePositionIncrements="true" />
>         
>         <filter class="solr.LowerCaseFilterFactory"/>
>               <filter class="solr.KStemFilterFactory" />
>       </analyzer>
>       <analyzer type="query">
>         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
>         <filter class="solr.WordDelimiterFilterFactory"
>                 generateWordParts="1"
>                 generateNumberParts="1"
>                 catenateWords="0"
>                 catenateNumbers="0"
>                 catenateAll="0"
>                 preserveOriginal="1"
>                 />
>               <filter class="solr.StandardTokenizerFactory"/>
>         <filter class="solr.StopFilterFactory" ignoreCase="true"
> words="stopwords.txt" enablePositionIncrements="true" />
>         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"
> ignoreCase="true" expand="true"/>
>         <filter class="solr.LowerCaseFilterFactory"/>
>               <filter class="solr.KStemFilterFactory" />              
>       </analyzer>
>       <analyzer type="select">
>         <tokenizer class="solr.WhitespaceTokenizerFactory"/>
>         <filter class="solr.WordDelimiterFilterFactory"
>                 generateWordParts="1"
>                 generateNumberParts="1"
>                 catenateWords="0"
>                 catenateNumbers="0"
>                 catenateAll="0"
>                 preserveOriginal="1"
>                 />
>               <filter class="solr.StandardTokenizerFactory"/>
>         <filter class="solr.StopFilterFactory" ignoreCase="true"
> words="stopwords.txt" enablePositionIncrements="true" />
>         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"
> ignoreCase="true" expand="true"/>
>         <filter class="solr.LowerCaseFilterFactory"/>
>               <filter class="solr.KStemFilterFactory" />              
>       </analyzer>
>     </fieldType>
> 
> 
> 
> 
> 
> --
> View this message in context: 
> http://lucene.472066.n3.nabble.com/Best-practice-for-KStemFilter-query-or-index-or-both-tp4161201.html
> Sent from the Solr - User mailing list archive at Nabble.com.
>

RE: Best practice for KStemFilter query or index or both?

Reply via email to