На Mon, 7 Sep 2009 18:20:02 +0300 Radostin Radnev <[email protected]> написа: > > Имам 2 корпуса (и аз да науча една думичка от БАН). ;) > 1. Slovoto.bg (дано не ме бият, че им товарих сървъра в рамките на > няколко часа) - 11 милиона думи. Нямам на идея кои произведения са > сканирани, ама чорбаджия и Огнянов ги има. ;)))
Този направо го изключи – оттук ще вземеш само подвеждащи думи за заданието. > 2. Един новинарски сайт с новини във всички области, а не само > политика - 10 милиона думи + коментарите след новините. > Като каза коментари, това с новинарския сайт е добро, би било попадение ако обходиш блоговете – там имаме далеч по-близка до устната, отколкото до писмената реч, свободен разговорен стил… Ам, причината да залитам все към корпуси, които се накланят по-скоро към полюса на разговорното са най-основните особености на SMS комуникацията и най-вече третата: 0. Собствен речник от съкращения, като за разлика от телеграмата тук се съкращава на ниво брой знаци, а не на ниво брой думи. 1. Никаква граматика – това е тъмна индия за пишещия SMS-и – няма пунктоация, начало край на изречението, главни букви. 3. Лексиката, като махнем съкращенията, освен, че е малко, е по-скоро ориентирана към разговорната, ежедневната лексика за частна кореспонденция – демек сленг. Нататък няма да коментирам, тъй като наистина как ще се третират различните форми, зависи пряко от заданието, а вие знаете заданието най-добре, така че решенията, които сте взели са най-правилни. _______________________________________________ Dict mailing list [email protected] http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
