Re: [Moses-support] Getting an Error "Boost does not seem to be installed or g++ is confused."
here is the screen shot Regards Asad A.Malik On Saturday, January 4, 2014 12:11 PM, Asad A.Malik wrote: Hi All, I am installing Moses and I've installaed boost 1.55 as mentioned "http://www.boost.org/doc/libs/1_55_0/more/getting_started/unix-variants.html". And then I downloaded MOSESDECODERfrom: "github.com/moses-smt/mosesdecoder.git" to the moses directory after that when I enter following commad "~/moses/mosesdecoder$ ./bjam --with-irstlm=/home/asad/moses/irstlm" it gives me error that "Boost does not seem to be installed or g++ is confused. Regards Asad A.Malik<>___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
[Moses-support] Getting an Error "Boost does not seem to be installed or g++ is confused."
Hi All, I am installing Moses and I've installaed boost 1.55 as mentioned"http://www.boost.org/doc/libs/1_55_0/more/getting_started/unix-variants.html";. And then I downloaded MOSESDECODERfrom: "github.com/moses-smt/mosesdecoder.git" to the moses directory after that when I enter following commad "~/moses/mosesdecoder$ ./bjam --with-irstlm=/home/asad/moses/irstlm" it gives me error that "Boost does not seem to be installed or g++ is confused. Regards Asad A.Malik___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
Re: [Moses-support] problem in tokenization
Happy New Year all. Renu and Arththika, have you tried using the characters-separated corpus in an SMT model? They might actually be helpful because SMT doesn't care if the token represents a single "word" or "concept" in a single language. It only matters how the groupings of tokens (not words) in one language are matched with groupings of tokens in another language. For example with German, SMT models usually perform better when the compound words are broken into their components. This 'segmentation' gives the word alignment greater resolution when matching the groupings between the two languages. German, however, does not use these connecting characters. So, segmenting the compound words can be cumbersome. In your cases, the work is already done. You might want to create two corpora (characters separated and not) and then evaluate the results. In the "character-separated" version, you'll need to create a custom script to remove the spaces surrounding these characters because the Moses detokenizer doesn't. In the "preferred" case, I think the simplest approach is to write a custom script to only search/replace desired punctuation. Tom On 01/04/2014 08:05 AM, Renu Kumar wrote: Sorry, please find the attachment. Regards Renu 2014/1/4 Renu Kumar mailto:renu17...@gmail.com>> Hi, I had faced similar problem for Hindi. However I ignored the tokenization step then & moved ahead. However I would also like to sort this problem and add any changes needed for Hindi language. This is generally termed as a golu character that we see in the output and comes up for vowel characters which are used with another consonant to form a single character of Hindi (or may be Tamil also --I do not know Tamil but I think that will be the case for most of the Indian Languages). Since it is two and in some cases even more than two characters that are joined to form and infact represent a single character in Hindi.so when we use the tokenizer script all the characters are broken up individually and hence the golu character appears, which infact is the actual representation of these characters if we look at the Unicode character chart , and these do not play any role as independent characters. Any suggestions. I am also attaching the Unicode character chart for Hindi. Regards Renu -- Original Message -- From: Arththika Paramanathan mailto:arthiparamanat...@gmail.com>> To: Hieu Hoang mailto:hieu.ho...@ed.ac.uk>> Cc: moses-support mailto:moses-support@mit.edu>> Date: January 3, 2014 at 11:33 PM Subject: Re: [Moses-support] problem in tokenization Hi, 1)this is an untokenized sentence, ??? ?? ??? ???,? ? ?? ??? ? ?.? ?? ??? ,??? ???,? ??? ?? . 2)the command I gave is, ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta < ~/corpus/training/squirrelmail.ta-en.ta > ~/corpus/squirrelmail.ta-en.tok.ta 3)the output is, ??? ? ??? ? ? ?? ?? ? ??? ??? ? ?? , ? ??? ? ??? ? ?? ? ?? ?? ? ?? ? ? ?? ??? ? ?? ? ? ? ? .?? ? ?? ? ? ?? ??? ? ?? ? ? ? ? ? ?? , ??? ? ?? ? ? ??? ??? ? ? ? ? , ??? ? ? ?? ? ??? ? ? ? ??? ? . 4)Preferred output is, ??? ?? ??? ??? , ? ? ?? ??? ? ? . ? ?? ??? , ??? ??? , ? ??? ?? . I attached the non-breaking prefix file also, I want to add more abbreviations to this 2014/1/4 renubalyan mailto:renubal...@cdac.in>> -- Original Message -- From: Arththika Paramanathan mailto:arthiparamanat...@gmail.com>> To: Hieu Hoang mailto:hieu.ho...@ed.ac.uk>> Cc: moses-support mailto:moses-support@mit.edu>> Date: January 3, 2014 at 11:33 PM Subject: Re: [Moses-support] problem in tokenization Hi, 1)this is an untokenized sentence, ??? ?? ??? ???,? ? ?? ??? ? ?.? ?? ??? ,??? ???,? ??? ?? . 2)the command I gave is, ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta < ~/corpus/training/squirrelmail.ta-en.ta > ~/corpus/squirrelmail.ta-en.tok.ta 3)the output is, ??? ? ??? ? ? ?? ?? ? ??? ??? ? ?? , ? ??? ? ??? ? ?? ? ?? ?? ? ?? ? ? ?? ??? ? ?? ? ? ? ? .?? ? ?? ? ? ?? ??? ? ?? ? ? ?
Re: [Moses-support] problem in tokenization
Hi, I had faced similar problem for Hindi. However I ignored the tokenization step then & moved ahead. However I would also like to sort this problem and add any changes needed for Hindi language. This is generally termed as a golu character that we see in the output and comes up for vowel characters which are used with another consonant to form a single character of Hindi (or may be Tamil also --I do not know Tamil but I think that will be the case for most of the Indian Languages). Since it is two and in some cases even more than two characters that are joined to form and infact represent a single character in Hindi.so when we use the tokenizer script all the characters are broken up individually and hence the golu character appears, which infact is the actual representation of these characters if we look at the Unicode character chart , and these do not play any role as independent characters. Any suggestions. I am also attaching the Unicode character chart for Hindi. Regards Renu -- Original Message -- From: Arththika Paramanathan To: Hieu Hoang Cc: moses-support Date: January 3, 2014 at 11:33 PM Subject: Re: [Moses-support] problem in tokenization Hi, 1)this is an untokenized sentence, சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும் அசைக்கவும் முடியும். 2)the command I gave is, ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta < ~/corpus/training/squirrelmail.ta-en.ta > ~/corpus/squirrelmail.ta-en.tok.ta 3)the output is, சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ் கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ் கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் . 4)Preferred output is, சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும் அசைக்கவும் முடியும் . I attached the non-breaking prefix file also, I want to add more abbreviations to this 2014/1/4 renubalyan > > > -- Original Message -- > From: Arththika Paramanathan > To: Hieu Hoang > Cc: moses-support > Date: January 3, 2014 at 11:33 PM > Subject: Re: [Moses-support] problem in tokenization > Hi, > > 1)this is an untokenized sentence, > சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் > ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை > தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும் > அசைக்கவும் முடியும். > > 2)the command I gave is, > ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta < > ~/corpus/training/squirrelmail.ta-en.ta > > ~/corpus/squirrelmail.ta-en.tok.ta > > 3)the output is, > சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு > அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ் > கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ் > கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் . > > 4)Preferred output is, > சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் > ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை > தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும் > அசைக்கவும் முடியும் . > I attached the non-breaking prefix file also, I want to add more > abbreviations to this > > > > -- > regards, > P.Arththika > > --- > > This e-mail is for the sole use of the intended recipient(s) and may > contain confidential and privileged information. If you are not the > intended recipient, please contact the sender by reply e-mail and destroy > all copies and the original message. Any unauthorized review, use, > disclosure, dissemination, forwarding, printing or copying of this email > is strictly prohibited and appropriate legal action will be taken. > --- > > ___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
[Moses-support] Cannot Run MOSES after reinstalling Ubuntu 12.04
Hi All, Due to less space in my Ubuntu drive, I tried to extend it. But before doing that I backuped my whole MOSES directory. And during extending I was in a situation where I have to reinstall Ubuntu 12.04. And after installing it I copied the MOSES directory back to Ubuntu drive, but now it is not working anymore. Is there any way that I can start using again my previous developed SMT. Regards Asad A.Malik___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
Re: [Moses-support] problem in tokenization
Hi, 1)this is an untokenized sentence, சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு,தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் ஒழுங்கு செய்யப்படுதல் ஆகும்.உங்களுடைய தேவைக்கமைவாக அவற்றை தனிப்பயனாக்குவதற்கு ,நீங்கள் நிரல்களை சேர்க்கவும்,நீக்கவும் மற்றும் அசைக்கவும் முடியும். 2)the command I gave is, ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l ta < ~/corpus/training/squirrelmail.ta-en.ta > ~/corpus/squirrelmail.ta-en.tok.ta 3)the output is, சுட ் டெண ் ஒழுங ் கு என ் பது ஒரு ஒழுங ் கு , தகவல ் சுட ் டெண ் இற ் கு அமைவாக நிரல ் கள ் ஒழுங ் கு செய ் யப ் படுதல ் ஆகும ் .உங ் களுடைய தேவைக ் கமைவாக அவற ் றை தனிப ் பயனாக ் குவதற ் கு , நீங ் கள ் நிரல ் களை சேர ் க ் கவும ் , நீக ் கவும ் மற ் றும ் அசைக ் கவும ் முடியும ் . 4)Preferred output is, சுட்டெண் ஒழுங்கு என்பது ஒரு ஒழுங்கு , தகவல் சுட்டெண் இற்கு அமைவாக நிரல்கள் ஒழுங்கு செய்யப்படுதல் ஆகும் . உங்களுடைய தேவைக்கமைவாக அவற்றை தனிப்பயனாக்குவதற்கு , நீங்கள் நிரல்களை சேர்க்கவும் , நீக்கவும் மற்றும் அசைக்கவும் முடியும் . I attached the non-breaking prefix file also, I want to add more abbreviations to this -- regards, P.Arththika nonbreaking_prefix.ta Description: Binary data ___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
[Moses-support] about Tuning in moses
Hi all I have a few question about tuning step of moses SMT. 1. Why we need tuning of the system ? as We can decode without it then why do we need it>? 2. What is reason behind getting optimized weights and where these weights are being used while decoding??? 3. Why corpus is needed for tuning and why we cant use training datatset or testset for tunning of the system??? THANK YOU___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support
Re: [Moses-support] Why exits when set "-print-alignment-info-in-n-best"
Hi, what are the contents of "${mertDir}"? Did the decoder run successfully? If not, check the error messages of the decoder run (the exact command used to run Moses is reported in STDERR. -phi On Fri, Jan 3, 2014 at 2:56 AM, Li Xiang wrote: > Hi, > > I want to use moses to generate nbest file with alignment information. But > after the first mert round, the program exist. > > My mert script is: > > mert-moses.pl --input "${devSrc}" --refs "${devRef}" --decoder "${decoder}" > --config "${mertini}" --rootdir "${mosesScript}" --working-dir "${mertDir}" > --decoder-flags "-v 0 -stack 200 -threads 8 -print-alignment-info-in-n-best" > > And the error information is > > Failed to get order of scores from nbestlist 'run1.best100.out': No such > file or directory at /home/moses/scripts/training/mert-moses.pl line 1315. > > ___ > Moses-support mailing list > Moses-support@mit.edu > http://mailman.mit.edu/mailman/listinfo/moses-support > ___ Moses-support mailing list Moses-support@mit.edu http://mailman.mit.edu/mailman/listinfo/moses-support