Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di significati, condivisione di significati) che progressivamente lega parole, frasi, testi al loro significato? A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in questi scambi. Sbaglio? Si può automatizzare "cum grano salis" che cita Antonio? Grazie e cordialità. Duccio (Alessandro Marzocchi)
Il giorno mer 22 mag 2024 alle ore 09:17 <[email protected]> ha scritto: > Message: 3 > Date: Tue, 21 May 2024 22:34:14 +0200 > From: Antonio <[email protected]> > To: [email protected] > Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e > Manzoni > Message-ID: <[email protected]> > Content-Type: text/plain; charset=ISO-8859-1 > > sul fatto di usare un tokenizzatore morfologico sono in polemica coi > > giovani nerd con cui lavoro i quali dicono che sono un vecchio > parruccone e > > che all'atto pratico la cosa non servirebbe. > > Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente > morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano > salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi > propri, toponimi, ecc.). Occorre un'attenzione particolare al > "vocabolario", perché mentre i testi per l'addestramento possono cambiare, > il vocabolario (ovvero la tavola di conversione, token -> numero) rimane > sempre lo stesso, in fase di learning, così come in fase di inference. > Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro > token, così: man-gi-ars-elo. > Il mio tokenizer (testi di letteratura pretrattati), in tre token: > man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. > A. > >
