On Friday 19 August 2005 11:01, Asmo Koskinen wrote:
> Terve,
>
> pyydän kaikkien kommentteja seuraavasta ajatuksesta.
>
> Ryhdyin tekemään itselleni pientä paikallista (localhost) tietokantaa
> (MySQL) sanalistasta. Sanalistan saa ulos tietokannasta PHP:llä. Valmis
> sanalista olisi samassa muodossa kuin Harrin finnish.dict.in-tiedosto.
> PHP:n tulostamalta www-sivulta sen voisi siirtää ja tallentaa Katen (utf-8
> pakotettuna) avulla finnish.dict.in-tiedostoon.
Erinomainen ajatus! Ja tuo toteutuskin näyttää järkevältä. Taulun dict_finnish 
kentistä sen verran, että tarvitsemme vielä yhden parametrikentän niille 
sanoille, jotka vaativat sanastokoodin lisäksi tarkempia taivutusohjeita (ks. 
esimerkiksi sanaston rivi "alla    prep    /A0", eli tällä hetkellä 
pre/postpositioille voi antaa erillisiä affikseja jotta vältytään 
kirjoittamasta allani, allasi, allansa jne. Koska tuossa luokassa on paljon 
eri tavoilla taipuvia sanoja, en ole halunnut koodata taivutusohjeita suoraan 
Python-skriptiin.) Tulevaisuudessa saatamme tarvita myös muitakin kenttiä, 
esimerkiksi tavutusta varten voi olla tarpeen koodata informaatiota siitä, 
onko kyseessä vierasperäinen sana johon ei voi soveltaa suoraan suomen kielen 
taivutussääntöjä.
Ertyisalojen sanastojen (esimerkiksi atk-sanasto, lääketieteellinen sanasto) 
lisäämistä varten voisi olla myös kenttä johon saisi laitettua merkinnän 
siitä, minkä alan sanasta on kyse. Näin olisi mahdollista koota 
harvinaisempaakin sanastoa vain niiden käyttöön jotka sitä tarvitsevat ilman 
että heikennetään turhaan oikolukuohjelman kykyä tunnistaa väärin 
kirjoitettuja sanoja. Samaa kenttää voisi käyttää myös niissä tapauksissa, 
joissa joku yleiskielen sana on niin harvoin käytetty, että on epävarmaa 
kannattaako sitä laittaa mukaan sanastoon.
Nuo kentät dict_luokka ja dict_abc eivät ehkä ole tarpeellisia (niihin tuleva 
tieto voidaan ainakin toistaiseksi päätellä täysin automaattisesta kenttien 
dict_sana ja dict_koodi perusteella), mutta toisaalta tässä vaiheessa on 
vaikea sanoa varmasti mitä kaikkea tarvitsemme jatkossa esimerkiksi verbien 
koodaamista varten.
Sitten sitä rajoitusta että yhtä sanaa ei saa koodata moneen kertaan ei ehkä 
kannata tehdä liian tiukaksi (pelkkä varoitus riittänee) sillä onhan 
sellaisiakin sanoja jotka todella taipuvat kahdella eri tavalla riippuen 
merkityksestä (esim. alus -> (lasin)alusen tai aluksen (puhuttaessa 
laivasta)).
Miten koodaamme tietokantaan sanat joille on kirjoitettava käsin 
taivutusmuodot (esim. olla-verbi)? Nyt olen käyttänyt sanastossa tuota 
ryhmittelyperiaatetta, jossa perusmuoto tulee ryhmän edelle kommenttiriville.

Tekijänoikeusasioissa suosittelisin mahdollisimman varovaista käytäntöä. Eli 
haetaan pelkästään aivan varmasti turvallisista lähteistä näin alkuvaiheessa, 
sitten kun sanasto alkaa olla suhteellisen kattavaa niin pitäisi olla 
turvallista hakea sanoja melkein mistä vaan, yksittäisiin sanoihin kun 
kenelläkään ei ole varmasti tekijänoikeutta. Mutta toisaalta jos jostain on 
saatavissa ihan asiantuntijan mielipide tähän asiaan, niin sitä tietysti 
kannattaa noudattaa.

Harri

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Reply via email to