Re: [dic] traits morphologiques dans le dictionnaire

2007-03-09 Par sujet jean beney

Laurent Godard wrote:


connais tu les travaux de myriam lechelt sur le correcteur grammatical ?
On est passé par la egalement avec une phase de léxique etiqueté pour 
l'inclure dans grammadoir


je peux te fournir inDico si celà t'interresse. Il a 450 000 entrees 
etiquettées environ


Merci pout l'info. Même si je ne fais pas exactement la même chose, ses 
réflexions pourront m'être utile.


Je peux aussi croiser ce dictionnaire avec les 530 683  formes obtenues 
à partir de fr_FR.aff et
fr_FR.dic. Idem pour Morphalou mais il faudrait que j'écrive un 
programme pour aligner les notations.


Au passage, en refabriquant ces formes pour en connaître le nombre 
exact, après corrections, je vois que d'anciens drapeaux traînent :


couchaillais/V  -> couchaillais/v
égorge/hu
n'égorge/hu
qu'égorge/hu
m'égorge/hu
t'égorge/hu
l'égorge/hu

Jean Beney

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [dic] traits morphologiques dans le dictionnaire

2007-03-09 Par sujet Olivier R.

jean beney a écrit :

Le travail est pour l'instant limité aux verbes parce qu'il n'est pas 
possible de séparer atomatiquement les noms des adjectifs et autres. Les 
fichiers d'affixes correspondant et le dictionnaire adapté seront 
bientôt disponible sur mon site :

http://lisi.insa-lyon.fr/~jbeney/dico.html


Intéressant votre site.
Vous constaterez, sur mon application, que la liste des morphologies est 
bien plus limitée.
Cependant, si vous éditez le fichier fr_FR.locale, vous pourrez agrandir 
cette liste.


Pour les non-verbes :
MORPHM:NC:Nom commun
MORPHM:NM:Nom masculin
MORPHM:NF:Nom féminin
MORPHM:NP:Nom propre
MORPHM:PRO:Pronom
MORPHM:ADJ:Adjectif
MORPHM:ADV:Adverbe
MORPHM:ART:Article
MORPHM:COUL:Couleur
MORPHM:DET:Déterminant
MORPHM:NBR:Nombre
MORPHM:CMP:Comparatif
MORPHM:CONJ:Conjonction
MORPHM:ITJ:Interjection
MORPHM:PRE:Préposition
Pour les verbes:
MORPHV:VT:Verbe transitif
MORPHV:VI:Verbe intransitif
MORPHV:VP:Verbe pronominal
MORPHV:VE:Verbe d'état

: est le séparateur de champ
> le premier champ indique si c'est une morphologie pour les verbes
> le deuxième champ, c'est son codage dans la base (il doit être unique!)
> le troisième champ est un descriptif, c'est ce qui apparaît dans 
l'application



Il y a aussi le lexique morphalou:
http://www.cnrtl.fr/lexiques/morphalou/
68.075 lemmes qui font 539.413 formes fléchies

C'est au format xml, et, décompressés, les fichiers sont tellement 
énormes (76Mo et 170 Mo) que la plupart des applications plantent quand 
elles les ouvrent.


Du coup, j'ai reformaté le fichier pour que ce soit utilisable. Il fait 
8 Mo. Mais je ne m'en suis pas encore servi pour compléter notre 
dictionnaire. Si ça vous intéresse, je peux vous l'envoyer.

Il faudra faire attention à la licence bien sûr.

Olivier.

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [dic] erreurs dans le dictionnaire

2007-03-09 Par sujet Olivier R.

Bonjour,

J'ai vu passer l'annonce de l'outil savant et je l'essayerais volontiers 
pour indiquer quelques autres erreurs, mais je travaille sous Linux :-(


Je vous ai envoyé les sources par mail.


J'ai d'ailleurs ajouté des lignes (115 en tout)dans la plupart des 
autres drapeaux pour traiter un maximum de verbes irréguliers. Le 
résultat sera bientôt disponible (voir mon prochain message).


http://fr.openoffice.org/servlets/ReadMsg?list=dic&msgNo=477

Après vérification de certains drapeaux, j'ai constaté que les préfixes 
suivants, peu utilisés, ne l'étaient de surcroît que par erreur :


drapeau : occurrences dans le dictionnaire
A  :  1
E  :  0
I  :  1
B  :  1
H  :  1
K  :  1
J  :  1
Y  :  0
Z  :  0
a  :  0
b  :  0
e  :  5
f  :  1
i  :  0
k  :  1

Toutes les entrées du dictionnaire ayant ces drapeaux étaient incorrectes.

Comme ceux-ci ne sont pas employés et n'ont guère d'intérêt, à mon avis, 
j'ai décidé de ne pas les intégrer dans mon logiciel. Cela présente 
l'avantage de clarifier grandement la liste confuse des préfixes.


De plus, ces drapeaux avaient déjà été effacés du fichier des affixes 
pour le dictionnaire de la réforme de 1990.




Avec l'aide du petit Robert, j'ai traité un grand nombre de ces verbes.


Vous pouvez déjà les entrées dans la base, sauf les verbes du 3e 
groupes. Je crois que je vais prévoir la possibilité d'insérer certaines 
entrées avec moins de contrôle.



Olivier R.

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [dic] traits morphologiques dans le dictionnaire

2007-03-09 Par sujet Laurent Godard

Bonjour Jean

Dans les spécifications de Hunspell, le dictionnaire reconnaît cette 
grammaire:

lemme
lemme/drapeaux
lemme/drapeaux[tabulation]morphologie




connais tu les travaux de myriam lechelt sur le correcteur grammatical ?
On est passé par la egalement avec une phase de léxique etiqueté pour 
l'inclure dans grammadoir


elle en a parlé sur son blog (premieres dates) et son memoire
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt

je peux te fournir inDico si celà t'interresse. Il a 450 000 entrees 
etiquettées environ


Laurent

--
Laurent Godard <[EMAIL PROTECTED]> - Ingénierie OpenOffice.org - 
http://www.indesko.com
Nuxeo Enterprise Content Management >> http://www.nuxeo.com - 
http://www.nuxeo.org

Livre "Programmation OpenOffice.org", Eyrolles 2004-2006

-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



[dic] traits morphologiques dans le dictionnaire

2007-03-09 Par sujet jean beney

Aubéron wrote:


Ce n'est pas vraiment une erreur.
Dans les spécifications de Myspell, je crois me souvenir qu'il ne faut 
pas qu'il y ait deux fois le même lemme dans le dictionnaire. Par 
contre, dans les spécifications de Hunspell, c'est possible.


Il sera toujours possible de séparer les verbes et les non-verbes avec 
une procédure automatique, si nécessaire. Ce n'est utile, je pense, 
que si pour chaque entrée on définit un champ "morphologie" (champ 
utile pour le futur éventuel correcteur grammatical).


Dans les spécifications de Hunspell, le dictionnaire reconnaît cette 
grammaire:

lemme
lemme/drapeaux
lemme/drapeaux[tabulation]morphologie


C'est précisément ce que je suis en train de faire, indépendamment de 
Hunspell, pour diposer
d'un lexique le plus riche possible pour une analyse syntaxique fu 
français. Comme j'utilise quelques conventions différentes (je ne traite 
pas les élisions), le résultat ne sera pas directement utilisable avec 
Hunspell, mais l'adaptation devrait être rapide.


J'ai donc obtenu un fichier d'affixes avec les traits morphologiques :

SFX u Y 81
SFX u   e  e  eVerb(impre, sing, deux)
SFX u   e  e  eVerb(ipre | spre, sing, un | 
trois)

SFX u   0  s  eVerb(ipre | spre, sing, deux)
SFX u   0  nt e   Verb(ipre | spre, plur, trois)
SFX u   0  sent is   Verb(ipre | spre, plur, trois)
SFX u   s  s   sVerb(impre, sing, deux)
...
Et un petit programme de génération me donne, à partir de collige/u :
"collige"   Verb(impre, sing, deux)
"collige"   Verb(ipre | spre, sing, un | trois)
"colliges"  Verb(ipre | spre, sing, deux)
"colligent" Verb(ipre | spre, plur, trois)
...

Le travail est pour l'instant limité aux verbes parce qu'il n'est pas 
possible de séparer atomatiquement les noms des adjectifs et autres. Les 
fichiers d'affixes correspondant et le dictionnaire adapté seront 
bientôt disponible sur mon site :

http://lisi.insa-lyon.fr/~jbeney/dico.html





---

En consultant la liste en ligne, je viens de m'apercevoir que j'ai 
encore raté un de vos messages. Je dois effacer trop vite les messages 
quand je fais le tri...



> Les verbes conclure, inclure, exclure, occlure sont un peu seuls de
> leur espèce et leurs participes passés sont mal traités. Pour
> conclure/y on ne trouve que
>
> >SFX y   ureu  clure
>
> tandis que les lignes suivantes ne sont jamais utilisées :
>
> >SFX z   re se clure
> >SFX z   re sesclure
>
> Il faudrait mettre :
> SFX y   ureu  clure
> SFX y   ureu  clure
> SFX y   re se clure
> SFX y   re sesclure

Que changez-vous au juste?
Vous avez juste ajouté une ligne identique à la première.

J'ai noté le reste.
Intéressantes, toutes vos corrections sur le fichier des affixes.
Merci pour vos remarques.


# 5) J'ai croisé ce lexique avec celui de l'ABU et j'ai trouvé 350
# infinitifs que l'on peut ajouter si on le juge utile. Il est probable
# que certains de ces verbes apparaissent déjà sous d'autres formes.

L'ajout des verbes du premier et du second groupe sera facile.
Par contre, pour le troisième groupe, il faudra regarder en détail 
pour la conjugaison de chacun.


-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]



Re: [dic] erreurs dans le dictionnaire

2007-03-09 Par sujet jean beney

Bonjour,

J'ai vu passer l'annonce de l'outil savant et je l'essayerais volontiers 
pour indiquer quelques autres erreurs, mais je travaille sous Linux :-(


Aubéron wrote:---


> Les verbes conclure, inclure, exclure, occlure sont un peu seuls de
> leur espèce et leurs participes passés sont mal traités. Pour
> conclure/y on ne trouve que
>
> >SFX y   ureu  clure
>
> tandis que les lignes suivantes ne sont jamais utilisées :
>
> >SFX z   re se clure
> >SFX z   re sesclure
>
> Il faudrait mettre :
> SFX y   ureu  clure
> SFX y   ureu  clure
> SFX y   re se clure
> SFX y   re sesclure

Que changez-vous au juste?
Vous avez juste ajouté une ligne identique à la première.


La ligne identique était une erreur (il manque un s).
J'ai ajouté pour le drapeau y,  4 lignes pour les 4 formes du participe 
passé de conclure, exclure et reclure :

 SFX y   ureu  clure
 SFX y   ureus  clure
 SFX y   re se clure
 SFX y   re sesclure

et en définitive j'ai aussi complété le drapeau z pour inclure et occlure :
SFX z   re s   clure
SFX z   re se clure
SFX z   re sesclure

J'ai d'ailleurs ajouté des lignes (115 en tout)dans la plupart des 
autres drapeaux pour traiter un maximum de verbes irréguliers. Le 
résultat sera bientôt disponible (voir mon prochain message).



L'ajout des verbes du premier et du second groupe sera facile.
Par contre, pour le troisième groupe, il faudra regarder en détail 
pour la conjugaison de chacun. 


Avec l'aide du petit Robert, j'ai traité un grand nombre de ces verbes.

Voici encore quelques erreurs :

caillebottai/v  ->  caillebottai/w
ris/w -> ris/uw
nourrirrai/y -> nourrirai/x
trafiquai/x -> trafiquai/w
trafiquerai/y -> trafiquerai/x
rapprends/u -> rapprends/g
pars/DR -> pars/DRu
chauvis/u est  incomplet (il manque "chauvent")
vagis/u -> vagis/uw
sevre/u -> sèvre/u
sevrerai/x -> sèvrerai/x
tonna/w -> tonnai/w
pourvoyeur/G -> pourvoyeuse/G

supprimer crus/w

ajouter R dans
entendais/jnmtlv entendis/jnmtlw entendrai/jnmtlx
entendre/snmtlM entends/jnmtlu

ajouter c dans 
SFX g   s  t  [cldf]is

SFX g   0  ent[cldf]is
SFX g   0  e  [cldf]is
SFX g   0  es [cldf]is
car circoncire se conjugue comme suffire

il manque
SFX w   us urent  moulus   

J'ai aussi aperçu un certain nombre de drapeaux en double,  mais n'ai 
pas pris le temps de vérifier si on pouvait se contenter de les 
supprimer ou s'il faut les remplacer par un autre drapeau. Je signale 
juste ce doublon :

départ/S part/DRS

les verbes impersonnels ci-dessous donne des formes qui n'existent pas:
avère/jnlu
avérerai/jnlx
floconnai/w
floconnais/vc
floconne/u
floconnerai/x
incombai/jnw
incombais/jnv

de même que
tressaillir/y

Jean Beney


-
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]