On Monday 29 August 2005 10:30, Saku Seppälä wrote:
> ...
> Nyt kun tiedossa on mistä tuo oikeinkirjoituksen tarkistamiseen
> tarvittava sanalista löytyy niin tehtäväksi jää vain Kotuksen
> suostutteleminen vapauttamaan kyseinen sanalista sopivan
> lisenssin alla kaiken kansan käyttöön.

Jos tämä onnistuisi, niin se olisi hienoa. En ole tosin käyttänyt mitään 
valmiita taivutusluokituksia affiksitiedostoa tehdessäni vaan olen luonut 
omaa luokitustani kielioppikirjojen avulla. Mutta en usko että tämä on 
ongelma, luultavasti näiden luokituksien muuntamiseksi toisikseen on 
mahdollista tarvittaessa tehdä yksinkertainen muunnosohjelma.

Tilannetietoja sen verran, että täysin epätieteellisen 112 substantiivin 
satunnaisotoksen perusteella taivutussäännöt tämäniltaisessa affiksitiedoston 
versiossa kattavat 61 prosenttia suomen kielen substantiiveista (tähän ei ole 
otettu mukaan verbien partisiippimuotoja). Jatkan puuttuvien luokkien 
lisäämistä ainakin siihen asti että saavutan 80 prosentin kattavuuden. Tämän 
jälkeen voisi olla hyvä kerätä jonkin verran sanastoa jotta löydetään 
mahdollisia säännönmukaisuuksia jäljelle jäävien sanojen joukosta. Näin siksi 
että ei ole oikein järkevää luoda taivutusluokkia joihin lopulta kuuluisi 
vain yksi tai muutama sana.
Jos tähän sanastotyöhön löytyy vapaaehtoisia, niin tuo Asmon aiemmin ehdottama 
tietokantapohjainen järjestely olisi varmasti järkevin. Minulla vaan ei ole 
mahdollisuutta tästä huolehtia, koska en voi tuonne people.cc.jyu.fi 
-koneelle mitään tietokantoja laittaa. Ilman tietokantaakin toki voidaan 
tulla toimeen jos sanaston kokoamiseen osallistuu vain vähän ihmisiä. Työn 
pohjana voi käyttää ainakin vanhaa Ispell-fi-sanastoa, mutta minulla on 
käytettävissäni pari muutakin lähdettä. Niihin olen saanut käyttöluvan 
periaatteella että itse lähteitä en voi tekijänoikeussyistä julkisesti 
levittää (ne sisältävät käsin tehdyn laajahkon sanalistan ja elokuun aikana 
julkaistuja sanomalehtijuttuja joita ei tavallisesti ollenkaan ole saatavissa 
sähköisessä muodossa), mutta niistä koottuja sanastoja voimme vapaasti 
julkaista GPL-lisenssin alaisuuteen.

Täytyy myös katsoa saisinko Asmon lähettämän awk-skriptin jotenkin yhdistettyä 
hf-luolistat -ohjelmaan.

Harri

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Reply via email to