Hi,

I had faced similar problem for Hindi. However I ignored the tokenization
step then & moved ahead. However I would also like to sort this problem and
add any changes needed for Hindi language.

This is generally termed as a golu character that we see in the output and
comes up for vowel characters which are used with another consonant to form
a single character of Hindi (or may be Tamil also --I do not know Tamil but
I think that will be the case for most of the Indian Languages).

Since it is two and in some cases even more than two characters that are
joined to form and infact represent a single character in Hindi.....so when
we use the tokenizer script all the characters are broken up individually
and hence the golu character appears, which infact is the actual
representation of these characters if we look at the Unicode character
chart , and these do not play any role as independent characters.

Any suggestions.
I am also attaching the Unicode character chart for Hindi.

Regards
Renu


---------- Original Message ----------
From: Arththika Paramanathan <arthiparamanat...@gmail.com>
To: Hieu Hoang <hieu.ho...@ed.ac.uk>
Cc: moses-support <moses-support@mit.edu>
Date: January 3, 2014 at 11:33 PM
Subject: Re: [Moses-support] problem in tokenization
Hi,

1)this is an untokenized sentence,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும்
அசைக்கவும் முடியும்.

2)the command I gave is,
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
~/corpus/training/squirrelmail.ta-en.ta >
~/corpus/squirrelmail.ta-en.tok.ta

3)the output is,
சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு
அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ்
கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ்
கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் .

4)Preferred output is,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும்
அசைக்கவும் முடியும் .
I attached the non-breaking prefix file also, I want to add more
abbreviations to this


2014/1/4 renubalyan <renubal...@cdac.in>

>
>
> ---------- Original Message ----------
> From: Arththika Paramanathan <arthiparamanat...@gmail.com>
> To: Hieu Hoang <hieu.ho...@ed.ac.uk>
> Cc: moses-support <moses-support@mit.edu>
> Date: January 3, 2014 at 11:33 PM
> Subject: Re: [Moses-support] problem in tokenization
>   Hi,
>
> 1)this is an untokenized sentence,
> சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
> ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை
> தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும்
> அசைக்கவும் முடியும்.
>
> 2)the command I gave is,
> ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
> ~/corpus/training/squirrelmail.ta-en.ta >
> ~/corpus/squirrelmail.ta-en.tok.ta
>
> 3)the output is,
> சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு
> அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ்
> கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ்
> கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் .
>
> 4)Preferred output is,
> சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
> ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை
> தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும்
> அசைக்கவும் முடியும் .
>  I attached the non-breaking prefix file also, I want to add more
> abbreviations to this
>
>
>
> --
> regards,
> P.Arththika
>
> -------------------------------------------------------------------------------------------------------------------------------
>
> This e-mail is for the sole use of the intended recipient(s) and may
> contain confidential and privileged information. If you are not the
> intended recipient, please contact the sender by reply e-mail and destroy
> all copies and the original message. Any unauthorized review, use,
> disclosure, dissemination, forwarding, printing or copying of this email
> is strictly prohibited and appropriate legal action will be taken.
> -------------------------------------------------------------------------------------------------------------------------------
>
>
_______________________________________________
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support

Reply via email to