On Friday 19 August 2005 11:01, Asmo Koskinen wrote: > Terve, > > pyydän kaikkien kommentteja seuraavasta ajatuksesta. > > Ryhdyin tekemään itselleni pientä paikallista (localhost) tietokantaa > (MySQL) sanalistasta. Sanalistan saa ulos tietokannasta PHP:llä. Valmis > sanalista olisi samassa muodossa kuin Harrin finnish.dict.in-tiedosto. > PHP:n tulostamalta www-sivulta sen voisi siirtää ja tallentaa Katen (utf-8 > pakotettuna) avulla finnish.dict.in-tiedostoon. Erinomainen ajatus! Ja tuo toteutuskin näyttää järkevältä. Taulun dict_finnish kentistä sen verran, että tarvitsemme vielä yhden parametrikentän niille sanoille, jotka vaativat sanastokoodin lisäksi tarkempia taivutusohjeita (ks. esimerkiksi sanaston rivi "alla prep /A0", eli tällä hetkellä pre/postpositioille voi antaa erillisiä affikseja jotta vältytään kirjoittamasta allani, allasi, allansa jne. Koska tuossa luokassa on paljon eri tavoilla taipuvia sanoja, en ole halunnut koodata taivutusohjeita suoraan Python-skriptiin.) Tulevaisuudessa saatamme tarvita myös muitakin kenttiä, esimerkiksi tavutusta varten voi olla tarpeen koodata informaatiota siitä, onko kyseessä vierasperäinen sana johon ei voi soveltaa suoraan suomen kielen taivutussääntöjä. Ertyisalojen sanastojen (esimerkiksi atk-sanasto, lääketieteellinen sanasto) lisäämistä varten voisi olla myös kenttä johon saisi laitettua merkinnän siitä, minkä alan sanasta on kyse. Näin olisi mahdollista koota harvinaisempaakin sanastoa vain niiden käyttöön jotka sitä tarvitsevat ilman että heikennetään turhaan oikolukuohjelman kykyä tunnistaa väärin kirjoitettuja sanoja. Samaa kenttää voisi käyttää myös niissä tapauksissa, joissa joku yleiskielen sana on niin harvoin käytetty, että on epävarmaa kannattaako sitä laittaa mukaan sanastoon. Nuo kentät dict_luokka ja dict_abc eivät ehkä ole tarpeellisia (niihin tuleva tieto voidaan ainakin toistaiseksi päätellä täysin automaattisesta kenttien dict_sana ja dict_koodi perusteella), mutta toisaalta tässä vaiheessa on vaikea sanoa varmasti mitä kaikkea tarvitsemme jatkossa esimerkiksi verbien koodaamista varten. Sitten sitä rajoitusta että yhtä sanaa ei saa koodata moneen kertaan ei ehkä kannata tehdä liian tiukaksi (pelkkä varoitus riittänee) sillä onhan sellaisiakin sanoja jotka todella taipuvat kahdella eri tavalla riippuen merkityksestä (esim. alus -> (lasin)alusen tai aluksen (puhuttaessa laivasta)). Miten koodaamme tietokantaan sanat joille on kirjoitettava käsin taivutusmuodot (esim. olla-verbi)? Nyt olen käyttänyt sanastossa tuota ryhmittelyperiaatetta, jossa perusmuoto tulee ryhmän edelle kommenttiriville.
Tekijänoikeusasioissa suosittelisin mahdollisimman varovaista käytäntöä. Eli haetaan pelkästään aivan varmasti turvallisista lähteistä näin alkuvaiheessa, sitten kun sanasto alkaa olla suhteellisen kattavaa niin pitäisi olla turvallista hakea sanoja melkein mistä vaan, yksittäisiin sanoihin kun kenelläkään ei ole varmasti tekijänoikeutta. Mutta toisaalta jos jostain on saatavissa ihan asiantuntijan mielipide tähän asiaan, niin sitä tietysti kannattaa noudattaa. Harri --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
