Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

alessandro marzocchi Wed, 22 May 2024 01:08:49 -0700

Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di
significati, condivisione di significati) che progressivamente lega parole,
frasi, testi al loro significato?
A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in
questi scambi. Sbaglio?
Si può automatizzare "cum grano salis" che cita Antonio?
Grazie e cordialità. Duccio (Alessandro Marzocchi)


Il giorno mer 22 mag 2024 alle ore 09:17 <[email protected]>
ha scritto:

> Message: 3
> Date: Tue, 21 May 2024 22:34:14 +0200
> From: Antonio <[email protected]>
> To: [email protected]
> Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
>         Manzoni
> Message-ID: <[email protected]>
> Content-Type: text/plain; charset=ISO-8859-1
> > sul fatto di usare un tokenizzatore morfologico sono in polemica coi
> > giovani nerd con cui lavoro i quali dicono che sono un vecchio
> parruccone e
> > che all'atto pratico la cosa non servirebbe.
>
> Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente
> morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano
> salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi
> propri, toponimi, ecc.). Occorre un'attenzione particolare al
> "vocabolario", perché mentre i testi per l'addestramento possono cambiare,
> il vocabolario (ovvero la tavola di conversione, token -> numero) rimane
> sempre lo stesso, in fase di learning, così come in fase di inference.
> Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro
> token, così: man-gi-ars-elo.
> Il mio tokenizer (testi di letteratura pretrattati), in tre token:
> man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
> A.
>
>

Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

Reply via email to