Re: [Moses-support] Getting an Error "Boost does not seem to be installed or g++ is confused."

2014-01-03 Thread Asad A.Malik
here is the screen shot

 
Regards 


Asad A.Malik



On Saturday, January 4, 2014 12:11 PM, Asad A.Malik  
wrote:
 
Hi All,

I am installing Moses and I've installaed boost 1.55 as mentioned 
"http://www.boost.org/doc/libs/1_55_0/more/getting_started/unix-variants.html". 
And then I downloaded MOSESDECODERfrom: 


"github.com/moses-smt/mosesdecoder.git" 


to the moses directory after that when I enter following commad 


"~/moses/mosesdecoder$ ./bjam --with-irstlm=/home/asad/moses/irstlm" it gives 
me error that "Boost does not seem to be installed or g++ is confused.

 
Regards 


Asad A.Malik<>___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


[Moses-support] Getting an Error "Boost does not seem to be installed or g++ is confused."

2014-01-03 Thread Asad A.Malik
Hi All,

I am installing Moses and I've installaed boost 1.55 as 
mentioned"http://www.boost.org/doc/libs/1_55_0/more/getting_started/unix-variants.html";.
 
And then I downloaded MOSESDECODERfrom: 


"github.com/moses-smt/mosesdecoder.git" 


to the moses directory after that when I enter following commad 


"~/moses/mosesdecoder$ ./bjam --with-irstlm=/home/asad/moses/irstlm" it gives 
me error that "Boost does not seem to be installed or g++ is confused.

 
Regards 


Asad A.Malik___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


Re: [Moses-support] problem in tokenization

2014-01-03 Thread Tom Hoar

Happy New Year all.

Renu and Arththika, have you tried using the characters-separated corpus 
in an SMT model? They might actually be helpful because SMT doesn't care 
if the token represents a single "word" or "concept" in a single 
language. It only matters how the groupings of tokens (not words) in one 
language are matched with groupings of tokens in another language.


For example with German, SMT models usually perform better when the 
compound words are broken into their components. This 'segmentation' 
gives the word alignment greater resolution when matching the groupings 
between the two languages. German, however, does not use these 
connecting characters. So, segmenting the compound words can be 
cumbersome. In your cases, the work is already done.


You might want to create two corpora (characters separated and not) and 
then evaluate the results. In the "character-separated" version, you'll 
need to create a custom script to remove the spaces surrounding these 
characters because the Moses detokenizer doesn't. In the "preferred" 
case, I think the simplest approach is to write a custom script to only 
search/replace desired punctuation.


Tom


On 01/04/2014 08:05 AM, Renu Kumar wrote:

Sorry, please find the attachment.

Regards
Renu


2014/1/4 Renu Kumar mailto:renu17...@gmail.com>>

Hi,

I had faced similar problem for Hindi. However I ignored the
tokenization step then & moved ahead. However I would also like to
sort this problem and add any changes needed for Hindi language.

This is generally termed as a golu character that we see in the
output and comes up for vowel characters which are used with
another consonant to form a single character of Hindi (or may be
Tamil also --I do not know Tamil but I think that will be the case
for most of the Indian Languages).

Since it is two and in some cases even more than two characters
that are joined to form and infact represent a single character in
Hindi.so when we use the tokenizer script all the characters
are broken up individually and hence the golu character appears,
which infact is the actual representation of these characters if
we look at the Unicode character chart , and these do not play any
role as independent characters.

Any suggestions.
I am also attaching the Unicode character chart for Hindi.

Regards
Renu


-- Original Message --
From: Arththika Paramanathan mailto:arthiparamanat...@gmail.com>>
To: Hieu Hoang mailto:hieu.ho...@ed.ac.uk>>
Cc: moses-support mailto:moses-support@mit.edu>>
Date: January 3, 2014 at 11:33 PM
Subject: Re: [Moses-support] problem in tokenization
Hi,

1)this is an untokenized sentence,
 ??? ?? ??? ???,?  ? ??
 ??? ? ?.?  ??
??? ,???  ???,?
??? ?? .

2)the command I gave is,
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
~/corpus/training/squirrelmail.ta-en.ta >
~/corpus/squirrelmail.ta-en.tok.ta

3)the output is,
??? ? ??? ?  ? ?? ?? ? ??? ???  ? ?? ,  ? ??? ? ??? ?
?? ? ?? ??  ? ?? ?  ? ?? ??? ? ?? ? ? ?  ? .??
? ?? ? ? ?? ??? ? ??  ? ? ? ? ? ?? , ??? ?
?? ?  ? ??? ??? ? ? ?  ? , ??? ?  ? ?? ? ??? ?  ?
 ? ??? ? .

4)Preferred output is,
 ??? ?? ??? ??? , ?  ? ??
 ??? ? ? . ? 
?? ??? , ???  ??? ,
? ??? ??  .
I attached the non-breaking prefix file also, I want to add more
abbreviations to this


2014/1/4 renubalyan mailto:renubal...@cdac.in>>


-- Original Message --
From: Arththika Paramanathan mailto:arthiparamanat...@gmail.com>>
To: Hieu Hoang mailto:hieu.ho...@ed.ac.uk>>
Cc: moses-support mailto:moses-support@mit.edu>>
Date: January 3, 2014 at 11:33 PM
Subject: Re: [Moses-support] problem in tokenization
Hi,

1)this is an untokenized sentence,
 ??? ?? ??? ???,?  ?
??  ??? ? ?.?
 ?? ??? ,??? 
???,? ??? ?? .

2)the command I gave is,
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
~/corpus/training/squirrelmail.ta-en.ta >
~/corpus/squirrelmail.ta-en.tok.ta

3)the output is,
??? ? ??? ?  ? ?? ?? ? ??? ???  ? ?? ,  ? ??? ?
??? ? ?? ? ?? ??  ? ?? ?  ? ?? ??? ? ?? ? ? ?
 ? .?? ? ?? ? ? ?? ??? ? ??  ? ? ?
 

Re: [Moses-support] problem in tokenization

2014-01-03 Thread Renu Kumar
Hi,

I had faced similar problem for Hindi. However I ignored the tokenization
step then & moved ahead. However I would also like to sort this problem and
add any changes needed for Hindi language.

This is generally termed as a golu character that we see in the output and
comes up for vowel characters which are used with another consonant to form
a single character of Hindi (or may be Tamil also --I do not know Tamil but
I think that will be the case for most of the Indian Languages).

Since it is two and in some cases even more than two characters that are
joined to form and infact represent a single character in Hindi.so when
we use the tokenizer script all the characters are broken up individually
and hence the golu character appears, which infact is the actual
representation of these characters if we look at the Unicode character
chart , and these do not play any role as independent characters.

Any suggestions.
I am also attaching the Unicode character chart for Hindi.

Regards
Renu


-- Original Message --
From: Arththika Paramanathan 
To: Hieu Hoang 
Cc: moses-support 
Date: January 3, 2014 at 11:33 PM
Subject: Re: [Moses-support] problem in tokenization
Hi,

1)this is an untokenized sentence,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும்
அசைக்கவும் முடியும்.

2)the command I gave is,
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
~/corpus/training/squirrelmail.ta-en.ta >
~/corpus/squirrelmail.ta-en.tok.ta

3)the output is,
சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு
அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ்
கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ்
கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் .

4)Preferred output is,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும்
அசைக்கவும் முடியும் .
I attached the non-breaking prefix file also, I want to add more
abbreviations to this


2014/1/4 renubalyan 

>
>
> -- Original Message --
> From: Arththika Paramanathan 
> To: Hieu Hoang 
> Cc: moses-support 
> Date: January 3, 2014 at 11:33 PM
> Subject: Re: [Moses-support] problem in tokenization
>   Hi,
>
> 1)this is an untokenized sentence,
> சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
> ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை
> தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும்
> அசைக்கவும் முடியும்.
>
> 2)the command I gave is,
> ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
> ~/corpus/training/squirrelmail.ta-en.ta >
> ~/corpus/squirrelmail.ta-en.tok.ta
>
> 3)the output is,
> சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு
> அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ்
> கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ்
> கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் .
>
> 4)Preferred output is,
> சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
> ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை
> தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும்
> அசைக்கவும் முடியும் .
>  I attached the non-breaking prefix file also, I want to add more
> abbreviations to this
>
>
>
> --
> regards,
> P.Arththika
>
> ---
>
> This e-mail is for the sole use of the intended recipient(s) and may
> contain confidential and privileged information. If you are not the
> intended recipient, please contact the sender by reply e-mail and destroy
> all copies and the original message. Any unauthorized review, use,
> disclosure, dissemination, forwarding, printing or copying of this email
> is strictly prohibited and appropriate legal action will be taken.
> ---
>
>
___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


[Moses-support] Cannot Run MOSES after reinstalling Ubuntu 12.04

2014-01-03 Thread Asad A.Malik
Hi All, 


Due to less space in my Ubuntu drive, I tried to extend it. But before doing 
that I backuped my whole MOSES directory. And during extending I was in a 
situation where I have to reinstall Ubuntu 12.04. And after installing it I 
copied the MOSES directory back to Ubuntu drive, but now it is not working 
anymore. Is there any way that I can start using again my previous developed 
SMT.

 


Regards 

Asad A.Malik___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


Re: [Moses-support] problem in tokenization

2014-01-03 Thread Arththika Paramanathan
Hi,

1)this is an untokenized sentence,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும்
அசைக்கவும் முடியும்.

2)the command I gave is,
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta <
~/corpus/training/squirrelmail.ta-en.ta > ~/corpus/squirrelmail.ta-en.tok.ta

3)the output is,
சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு
அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ்
கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ்
கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் .

4)Preferred output is,
சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள்
ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை
தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும்
அசைக்கவும் முடியும் .

I attached the non-breaking prefix file also, I want to add more
abbreviations to this



-- 
regards,
P.Arththika


nonbreaking_prefix.ta
Description: Binary data
___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


[Moses-support] about Tuning in moses

2014-01-03 Thread nadeem khan
Hi all
I have a few question about tuning step of moses SMT.
1. Why we need tuning of the system ? as We can decode without it then why do 
we need it>?
2. What is reason behind getting optimized weights and where these weights are 
being used while decoding???
3. Why corpus is needed for tuning and why we cant use training datatset or 
testset for tunning of the system???


THANK YOU___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support


Re: [Moses-support] Why exits when set "-print-alignment-info-in-n-best"

2014-01-03 Thread Philipp Koehn
Hi,

what are the contents of "${mertDir}"?
Did the decoder run successfully?
If not, check the error messages of the decoder run
(the exact command used to run Moses is reported
in STDERR.

-phi

On Fri, Jan 3, 2014 at 2:56 AM, Li Xiang  wrote:
> Hi,
>
> I want to use moses to generate nbest file with alignment information. But
> after the first mert round, the program exist.
>
> My mert script is:
>
> mert-moses.pl --input "${devSrc}" --refs "${devRef}" --decoder "${decoder}"
> --config "${mertini}" --rootdir "${mosesScript}" --working-dir "${mertDir}"
> --decoder-flags "-v 0 -stack 200 -threads 8 -print-alignment-info-in-n-best"
>
> And the error information is
>
> Failed to get order of scores from nbestlist 'run1.best100.out': No such
> file or directory at /home/moses/scripts/training/mert-moses.pl line 1315.
>
> ___
> Moses-support mailing list
> Moses-support@mit.edu
> http://mailman.mit.edu/mailman/listinfo/moses-support
>
___
Moses-support mailing list
Moses-support@mit.edu
http://mailman.mit.edu/mailman/listinfo/moses-support