На Mon, 7 Sep 2009 18:20:02 +0300
Radostin Radnev <[email protected]> написа:
> 
> Имам 2 корпуса (и аз да науча една думичка от БАН). ;)
> 1. Slovoto.bg (дано не ме бият, че им товарих сървъра в рамките на
> няколко часа) - 11 милиона думи. Нямам на идея кои произведения са
> сканирани, ама чорбаджия и Огнянов ги има. ;)))

Този направо го изключи – оттук ще вземеш само подвеждащи думи за
заданието.

> 2. Един новинарски сайт с новини във всички области, а не само
> политика - 10 милиона думи + коментарите след новините.
> 
Като каза коментари, това с новинарския сайт е добро, би било попадение
ако обходиш блоговете – там имаме далеч по-близка до устната,
отколкото до писмената реч, свободен разговорен стил… Ам, причината да
залитам все към корпуси, които се накланят по-скоро към полюса на
разговорното са най-основните особености на SMS комуникацията и
най-вече третата:
0. Собствен речник от съкращения, като за разлика от телеграмата тук
се съкращава на ниво брой знаци, а не на ниво брой думи.
1. Никаква граматика – това е тъмна индия за пишещия SMS-и – няма
пунктоация, начало край на изречението, главни букви.
3. Лексиката, като махнем съкращенията, освен, че е малко, е по-скоро
ориентирана към разговорната, ежедневната лексика за частна
кореспонденция – демек сленг.

Нататък няма да коментирам, тъй като наистина как ще се третират
различните форми, зависи пряко от заданието, а вие знаете заданието
най-добре, така че решенията, които сте взели са най-правилни.  

_______________________________________________
Dict mailing list
[email protected]
http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict

Raspunde prin e-mail lui