Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2006-03-08 14:46:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Словарный запас надо измерять в Эллочках. Их нужно всего штук 100…
http://groovy-merchant.livejournal.com/1569.html
«…словарь иньских гадательных надписей 13-11 вв. до н.э. Цзягувэнь бянь (Пекин 1965) насчитывает 4 672 идеограммы. Общее количество иероглифов было несомненно несколько больше, но вряд ли существенно, составители самого словаря оценивают его приблизительно в 5 500 знаков. Переместившись на тысячу лет позже мы видим приблизительно то же количество активных иероглифов – индекс к конфуцианскому Тринадцатикнижию исчисляет 6 544 знака. Собственно, даже в наши дни знание 3 800 иероглифов обеспечивает понимание 99,9% содержания неспециальной литературы (а, скажем, знание 5 200 иероглифов увеличивает понимание до 99,99%).

(Быть может, это какое-то родовое свойство языков. Русский язык, например, состоит из примерно 5 000 морфов, корней при этом около 4 400, а остальное аффиксы. См. например, А. И. Кузнецова, Т. Ф. Ефремова. Словарь морфем русского языка. М., "Русский язык", 1986, с. 16. Запас истинных, незаимствованных корневых морфем в любом языке, вероятно, составляет около 3 000 единиц и является постоянной величиной, не зависящей от уровня развития.)»

Нет возражений? 3000 единиц – хватит понимания для 99,99% текстов любого языка?


(Читать комментарии) - (Добавить комментарий)


[info]ivanov_petrov@lj
2006-03-09 04:34 (ссылка)
Мне кажется, смысл этого текста - не в попытке свести все богатство языка к чему-то малому и этим ограничиться, а - ухватить минимальное число символов, достаточных для довольно развитой коммуникации и при этом - это число предполагается некой константой для самых разных по строю языков. Такая идея весьма интересна. Давайте будем критерий понимания текста полагать чисто операциональным - он нужен не для развития разговора именно о понимании, там много чего можно сказать - что мало. что есть тексты, нашпигованные редкими словами и проч. А важно только для определения этого минимального набора символов-смыслов. Если мы моделируем язык - может ли быть. что для покрытия "всей" семантической сферы с минимально приличным разрешением нам хватит 3000 символов? Пусть на уровне "твоя моя" - это было бы крайне интересно. Но я тоже сомневаюсь - не чувствую опытной подкладки такого утверждения. и мне трудно разобраться, не слишком ли оно обрубает реальность, втискиваясь в схему.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]zvantsev@lj
2006-03-09 12:10 (ссылка)
Вот какая штука: тогда «понимание» надо вообще из рассмотрения исключить. В любом смысле и виде. Вот пример несколько со стороны. Неоднократно наблюдал, как общаются матросы в зарубежных портах. Каждый говорит на своем языке, и все всё понимают. Несколько слов, жесты, выражение лица, убедительное мычание, а главное – немногочисленность и ожидаемость тем разговора. Так что три тысячи основных единиц – это не просто много, это очень много.

А из этого «очень много» сразу же следует сомнительность числа 3000 как константы. Всё зависит от исходных установок анализирующего. Какие морфы зачислить в основные, а какие – так, обойдемся? Что если взять 2000 или 4000 основных элементов? Самый простой вопрос: как проверить правильность утверждения об этой константе для разных языков? Подчеркну: как в принципе? Боюсь, что никак.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-09 12:57 (ссылка)
Трудно, не зная броду... Я ведь не очень представляю, как там слова считают. Был бы у меня опыт таких работ - представлял бы, а так... но вот видите какие занимательные цифры http://ivanov-petrov.livejournal.com/334578.html?thread=8720370#t8720370

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]groovy_merchant@lj
2006-03-09 20:21 (ссылка)
Вот, к примеру, здесь http://www.zein.se/patrick/3000en.html можно посмотреть кой-какую статистику, там же и две – из дюжины примерно - ссылки на аппарат и методику.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-10 04:01 (ссылка)
спасибо

(Ответить) (Уровень выше)


(Читать комментарии) -