Hunspell inaccuracies with Solr 4.8.1 and french dictionnaries
Hello, I just moved from Solr 4.6 to Solr 4.8.1 and I notice differences in the way Hunspell work. Some changes are fixes (due to https://issues.apache.org/jira/browse/LUCENE-5483 I assume) but other changes look like regressions. To check this, I have compared the results obtained in the Analysis tab of Solr admin and the results obtained used "hunspell -m" command with the same dictionaries. Command line results: $ hunspell -m -d /DATA/solr-adscope-fr/adscope-fr/conf/fr-moderne bricolait bricolait st:bricoler po:v1it is:iimp is:3sg instituteur instituteur st:institutrice po:nom is:mas is:sg Solr Analysis tab results (I'm using HunspellStemFilterFactory) bricolait -> bricolait instituteur -> instituteur The dictionary and affix file are available at this address: http://www.dicollecte.org/download.php?prj=fr As shown above, the words "bricolait" and "instituteur" are correctly stemmed in command line but not with Solr filter. These examples were working correctly with Solr 4.6. Is it something I should open a JIRA issue about? Thanks, Benoît. Ce message et les pièces jointes sont confidentiels et réservés à l'usage exclusif de ses destinataires. Il peut également être protégé par le secret professionnel. Si vous recevez ce message par erreur, merci d'en avertir immédiatement l'expéditeur et de le détruire. L'intégrité du message ne pouvant être assurée sur Internet, la responsabilité de Worldline ne pourra être recherchée quant au contenu de ce message. Bien que les meilleurs efforts soient faits pour maintenir cette transmission exempte de tout virus, l'expéditeur ne donne aucune garantie à cet égard et sa responsabilité ne saurait être recherchée pour tout dommage résultant d'un virus transmis. This e-mail and the documents attached are confidential and intended solely for the addressee; it may also be privileged. If you receive this e-mail in error, please notify the sender immediately and destroy it. As its integrity cannot be secured on the Internet, the Worldline liability cannot be triggered for the message content. Although the sender endeavours to maintain a computer virus-free network, the sender does not warrant that this transmission is virus-free and will not be liable for any damages resulting from any virus transmitted.
Hunspell inaccuracies with Solr 4.8.1 and french dictionnaries
Hello, I just moved from Solr 4.6 to Solr 4.8.1 and I notice differences in the way Hunspell work. Some changes are fixes (due to https://issues.apache.org/jira/browse/LUCENE-5483 I assume) but other changes look like regressions. To check this, I have compared the results obtained in the Analysis tab of Solr admin and the results obtained used "hunspell -m" command with the same dictionaries. Command line results: $ hunspell -m -d /DATA/solr-adscope-fr/adscope-fr/conf/fr-moderne bricolait bricolait st:bricoler po:v1it is:iimp is:3sg instituteur instituteur st:institutrice po:nom is:mas is:sg Solr Analysis tab results (I'm using HunspellStemFilterFactory) bricolait -> bricolait instituteur -> instituteur The dictionary and affix file are available at this address: http://www.dicollecte.org/download.php?prj=fr As shown above, the words "bricolait" and "instituteur" are correctly stemmed in command line but not with Solr filter. These examples were working correctly with Solr 4.6. Is it something I should open a JIRA issue about? Thanks, Benoît. Ce message et les pièces jointes sont confidentiels et réservés à l'usage exclusif de ses destinataires. Il peut également être protégé par le secret professionnel. Si vous recevez ce message par erreur, merci d'en avertir immédiatement l'expéditeur et de le détruire. L'intégrité du message ne pouvant être assurée sur Internet, la responsabilité de Worldline ne pourra être recherchée quant au contenu de ce message. Bien que les meilleurs efforts soient faits pour maintenir cette transmission exempte de tout virus, l'expéditeur ne donne aucune garantie à cet égard et sa responsabilité ne saurait être recherchée pour tout dommage résultant d'un virus transmis. This e-mail and the documents attached are confidential and intended solely for the addressee; it may also be privileged. If you receive this e-mail in error, please notify the sender immediately and destroy it. As its integrity cannot be secured on the Internet, the Worldline liability cannot be triggered for the message content. Although the sender endeavours to maintain a computer virus-free network, the sender does not warrant that this transmission is virus-free and will not be liable for any damages resulting from any virus transmitted.