[Mt-list] ELRA Catalogue of Language Resources - Update

ELRA ELDA Information Mon, 21 Feb 2022 02:11:35 -0800

[Apologies for multiple postings]

We are happy to announce that 3 new written corpora are now available inour catalogue.

**

*Danish Gigaword Corpus *<http://catalog.elra.info/en-us/repository/browse/ELRA-W0318/>*ISLRN: 024-504-318-388-3<http://www.islrn.org/resources/024-504-318-388-3>*This corpus consists of over a billion words for Danish collected fromvarious websites. Domains are distributed as follows: Legal (308.8million words), Social Media (261.4 million words), Subtitles (130.1million words), Debates (108.4 million words), Conversations (0.7million words), Web (101.02 million words), Encyclopedia (55.6 millionwords), Literature (31.3 million words), Manuals (2.6 million words),Books (2.1 million words), Religion (600k words), News (40 millionwords), Other (1.2 million words).

*English-Punjabi Code-Mixed Social Media Content*<http://catalog.elra.info/en-us/repository/browse/ELRA-W0319/>*ISLRN: **695-759-706-170-8*<http://www.islrn.org/resources/695-759-706-170-8>The English-Punjabi Code-Mixed Social Media Content corpus is composedof 893,615 parallel sentences of English-Punjabi in the followingdomains: Agriculture, Culture, Entertainment, Health, Religion, Sports,Technology, Tourism, Education, and Entertainment.

*Parallel Corpora for 6 Indian Languages *<http://catalog.elra.info/en-us/repository/browse/ELRA-W0320/>*ISLRN: 657-350-757-058-6<http://www.islrn.org/resources/657-350-757-058-6>*The Parallel Corpora for 6 Indian Languages contains data sets forBengali (540,000 words – 20,000 parallel sentences), Hindi (1,200,000words – 37,000 parallel sentences), Malayalam (660,000 words – 29,000parallel sentences), Tamil (747,000 words – 35,000 parallel sentences),Telugu (951,000 words – 43,000 parallel sentences), and Urdu (1,200,000words – 33,000 parallel sentences), translated into English. Each dataset was created by taking around 100 Indian-language Wikipedia pages andobtaining four independent translations in English of each of thesentences in those documents via non-professional translators hired bycrowdsourcing on Amazon Mechanical Turk.

For more information on the catalogue or if you would like to enquireabout having your resources distributed by ELRA, please *contact us<mailto:cont...@elda.org>*.

_________________________________________
Visit the *ELRA Catalogue of Language Resources <http://catalog.elra.info>*
Visit the *Universal Catalogue <http://universal.elra.info>***

*Archives<http://www.elra.info/en/catalogues/language-resources-announcements>*ofELRA Language Resources Catalogue Updates

_______________________________________________
Mt-list site list
Mt-list@lists.eamt.org
https://lists.eamt.org/cgi-bin/mailman/listinfo/mt-list

[Mt-list] ELRA Catalogue of Language Resources - Update

Reply via email to