Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2006-03-08 14:46:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Словарный запас надо измерять в Эллочках. Их нужно всего штук 100…
http://groovy-merchant.livejournal.com/1569.html
«…словарь иньских гадательных надписей 13-11 вв. до н.э. Цзягувэнь бянь (Пекин 1965) насчитывает 4 672 идеограммы. Общее количество иероглифов было несомненно несколько больше, но вряд ли существенно, составители самого словаря оценивают его приблизительно в 5 500 знаков. Переместившись на тысячу лет позже мы видим приблизительно то же количество активных иероглифов – индекс к конфуцианскому Тринадцатикнижию исчисляет 6 544 знака. Собственно, даже в наши дни знание 3 800 иероглифов обеспечивает понимание 99,9% содержания неспециальной литературы (а, скажем, знание 5 200 иероглифов увеличивает понимание до 99,99%).

(Быть может, это какое-то родовое свойство языков. Русский язык, например, состоит из примерно 5 000 морфов, корней при этом около 4 400, а остальное аффиксы. См. например, А. И. Кузнецова, Т. Ф. Ефремова. Словарь морфем русского языка. М., "Русский язык", 1986, с. 16. Запас истинных, незаимствованных корневых морфем в любом языке, вероятно, составляет около 3 000 единиц и является постоянной величиной, не зависящей от уровня развития.)»

Нет возражений? 3000 единиц – хватит понимания для 99,99% текстов любого языка?


(Добавить комментарий)


[info]tacente@lj
2006-03-08 08:52 (ссылка)
Не 99,99 а примерно 99.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 08:59 (ссылка)
Отлично. Экономный режим. А я и не знал, какого порядка должна быть подобная цифра. И что она примерно одинакова для всех языков

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tacente@lj
2006-03-08 09:45 (ссылка)
Да нет, это я исходя из Ваших же цифр :-) Я думаю, к этому следует подходить с осторожностью. Что цифра примерно одинакова для всех языков - очень похоже на правду. Что она так невелика - я думаю, 99 процентов бытовых ситуаций 3000 морфем покроют, а художественную литературу - нет.

Ну и плюс еще сложности грамматики, конечно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 10:29 (ссылка)
Э, другое дело. Что разговор можно вести с небольшим словарем - дело ясное. По ссылке видно - речь именно о текстах, и не сказать. что о простых текстах.

(Ответить) (Уровень выше)


[info]misha_b@lj
2006-03-08 09:59 (ссылка)

А что такое "незаимствованная морфема", откуда именно она незаимствована?
И уровень развития чего?

По-моему, эта цитата звучит довольно дико. Но я не лингвист, конечно.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 10:33 (ссылка)
Ну, мне кажется. что интуитивно здесь что-то понятно. Уровень развития - языка. вроде бы. Но я тоже в высшей степени не лингвист.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 11:01 (ссылка)
А Вы не могли бы привести пример двух языков разного уровня развития?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 11:24 (ссылка)
Прямо-таки пример - даже напрягаться не буду. Поищите "креольские и пиджин-языки". Многим - всего несколько десятков лет, словарный запас - от сотен до первых тысяч слов. Грамматика весьма нехитрая, кажется.. Я думаю, можно сказать о том, что такой язык на другом уровне развития, чем.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 12:36 (ссылка)
Да, согласен насчёт пиджинов, хороший пример. (Хотя ни про какие 3000 единиц там речи не идёт).

Но вот в английском, например, корней в несколько раз больше, чем в русском. А в русском грамматика и словообразование богаче. А в суахили ...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 16:14 (ссылка)
Про языки - их сравнительное богатство - вот здесь http://ivanov-petrov.livejournal.com/325109.html, много сказано.

Про то. что в пиджинах на 3000 речь не идёт - позвольте... Я держал в руках книжечку про один из таких языков - кажется, Ток-писин, и еще несколько - была такая неплохая серия. Я отчетливо помню, что там приводились - нечастые. конечно - примеры таких языков с несколькими сотнями слов. не корней - слов. Язык из 700 слов - примерно. Так что - и такое бывает. Там еще был красочный пример. что люди на этом языке не могли бы разговаривать - то есть понимать др. друга в темноте - без жестов речь становится маловразумительной. И, конечно, часто вплетаются слова родительского языка... Это все так, но рождаются дети. для которых такой язык - родной, и нет уже оснований говорить о нем как о "не вполне языке"

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 16:39 (ссылка)
>Я держал в руках книжечку про один из таких языков - кажется, Ток-писин, и еще >несколько - была такая неплохая серия. Я отчетливо помню, что там приводились >- нечастые. конечно - примеры таких языков с несколькими сотнями слов. не >корней - слов.

Da, ya eto i imel v vidy, tam kyda men'she kornej. I ya soglasen s tem, chto eto nastoyashie yazuki.

(Ответить) (Уровень выше)


[info]dottedmag@lj
2006-03-08 10:09 (ссылка)
Совершенно непонятно разделение на истинные и заимствованные морфемы.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 10:38 (ссылка)
Ну, я пока предварительно готов понимать так, что отделяются корни, заимствованные из других языков. Разумеется, там начнутся уточнения о степени близости - одно дело у близкого языка и давно, другое - у далекого и только что, но вроде бы можно и так понять.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]dottedmag@lj
2006-03-08 10:41 (ссылка)
Да, как они их разделяют - это понятно. Непонятно - зачем? Чтобы получить красивое число в 3000 морфем? С точки зрения использования (а именно использование определяет все цифры, приведённые в статье) нет никакой разницы между истинными и заимствованными морфемами.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]ivanov_petrov@lj
2006-03-08 10:54 (ссылка)
Могу опять же сказать только о том, как я это могу понимать - возможно, для лингвиста это бред. Видимо, имеется в виду усмотреть минимальный объем, достаточный для коммуникации. Ну, не просто достаточный, а вот эти 99%... И: заимствованных может не быть. "Когда-то" язык был только с исходными корнями. по ним и сравнивать. Но, может, тут и не так шла мысль. Кстати. насчет определния всех цифр... Думаете, что заимствованных в разы больше, чем коренных, так что это очень исказит результаты?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]dottedmag@lj
2006-03-08 11:00 (ссылка)
[Не претендуя на знание лингвистики] В английском языке 90% морфем заимствованы. А если говорить об объёме, достаточном для коммуникации, то тогда непонятно, при чём тут книги, в особенности если речь идёт о всех книгах, в том числе и узкоспециальных.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]ivanov_petrov@lj
2006-03-08 11:23 (ссылка)
Ну, ежели 90... Слышал я о самом богатом латинскими заимствованиями языке, но не думал, что столь много - даже вкупе с французским и проч.

(Ответить) (Уровень выше)

Re: Reply to your comment...
[info]misha_b@lj
2006-03-08 11:02 (ссылка)

Как их разделяют мне, например, далеко не понятно.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]dottedmag@lj
2006-03-08 11:04 (ссылка)
Формальных вариантов можно придумать кучу, скажем "встречается в письменной речи до такого-то века". Вопрос лишь в семантике такого разделения.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]misha_b@lj
2006-03-08 11:10 (ссылка)

Конечно, но такое разделение довольно бессмысленно, нет? Мне кажется никакого строгого
критерия быть не может -- ведь в каком-то смысле почти все слова заимствованы.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]dottedmag@lj
2006-03-08 11:14 (ссылка)
В точку, поэтому представители точных наук так плохо понимают гуманитариев ;)

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Reply to your comment...
[info]misha_b@lj
2006-03-08 12:44 (ссылка)

Krome togo zametim, chto takoj kriterij ochen' zavisit ot vremeni. Raznitsa v tom, chto vstreachetsya v pis'mnnoj rechit do 15-go is 19-go vekami bydet ogromnaya (v chastnosti potomy, chto pis'mennoj rechi stalo na poryadok bol'she).

Ya yj ne govory o tom, chto vo mnogih (bol'shinstve?)yazykah net pis'mennosti.

(Ответить) (Уровень выше)


[info]misha_b@lj
2006-03-08 10:43 (ссылка)
Ну вот, например, слово "знать" имеет индоевропейский корень (однокоренное с английским
"to know"). Оно заимствовано или нет?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 10:55 (ссылка)
Не могу знать! Полагаю, - нет.

(Ответить) (Уровень выше)


[info]mftsch@lj
2006-03-08 11:55 (ссылка)
Нет, не заимствованное, так как русский язык происходит из индоевропейского.
Заимствованные корни - появившиеся в русском языке уже после формирования такового.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 12:37 (ссылка)

Но о формировании языков мы весьма мало знаем, мне кажется.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 16:15 (ссылка)
Гхм. Мы обо всем знаем мало. Например, о геологии и астрономии, математике и химии. Однако смею Вас уверить. что русский - один из языков индоевропейской семья. Это так же верно, как прочие вполне уверенные познания иных наук.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 16:31 (ссылка)

Ny s tem, chto rysskij -- eto indoevropejskij yazuk, ya sporit' ne bydy.

(Ответить) (Уровень выше)


[info]mftsch@lj
2006-03-08 23:31 (ссылка)
Но говорить о том, в какие примерно века более-менее сформировался русский язык мы можем.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_b@lj
2006-03-08 23:33 (ссылка)



Da, a chto izvestno pro formirovanie rysskogo yazuka?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chingachguk@lj
2006-03-09 05:39 (ссылка)
почти все :)

(Ответить) (Уровень выше)


[info]yurvor@lj
2006-03-08 13:15 (ссылка)
3000 единиц – хватит понимания для 99,99% текстов любого языка?

Про 99% уже сказали. Я же хочу заметить, что тут может быть тонкая подмена. 99% текстов, или 99% содержания всех текстов... Т.е. грубо говоря, в каждом из неспециальных текстов основной смысл (99% смысла) можно уловить, зная 3-5 000 морфем.

Однако зачастую основная идея текста (если она есть, конечно) заключена в очень небольшом количестве фраз. Которые вполне могут попасть в этот 1%...

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-08 16:17 (ссылка)
Да, я думаю - именно как Вы сказали. имелось в виду - 99% каждого из текстов.

(Ответить) (Уровень выше)


[info]zvantsev@lj
2006-03-08 20:18 (ссылка)
Как же без возражений? Или хотя бы вопросов.

Что значит - понимание текста? До какой степени? Твоя моя понимай?

Так ли уж важны при этом морфы? Для понимания (в определенном смысле) текста про Куздру или Jabberwocky надо знать не основные морфы языка, а его развитую структуру.

И, наконец, при чем тут заимствование?

В целом всё это очень напоминает словари "1000 самых распространенных слов". Выучил - и всё, язык знаешь...

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-09 04:34 (ссылка)
Мне кажется, смысл этого текста - не в попытке свести все богатство языка к чему-то малому и этим ограничиться, а - ухватить минимальное число символов, достаточных для довольно развитой коммуникации и при этом - это число предполагается некой константой для самых разных по строю языков. Такая идея весьма интересна. Давайте будем критерий понимания текста полагать чисто операциональным - он нужен не для развития разговора именно о понимании, там много чего можно сказать - что мало. что есть тексты, нашпигованные редкими словами и проч. А важно только для определения этого минимального набора символов-смыслов. Если мы моделируем язык - может ли быть. что для покрытия "всей" семантической сферы с минимально приличным разрешением нам хватит 3000 символов? Пусть на уровне "твоя моя" - это было бы крайне интересно. Но я тоже сомневаюсь - не чувствую опытной подкладки такого утверждения. и мне трудно разобраться, не слишком ли оно обрубает реальность, втискиваясь в схему.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]zvantsev@lj
2006-03-09 12:10 (ссылка)
Вот какая штука: тогда «понимание» надо вообще из рассмотрения исключить. В любом смысле и виде. Вот пример несколько со стороны. Неоднократно наблюдал, как общаются матросы в зарубежных портах. Каждый говорит на своем языке, и все всё понимают. Несколько слов, жесты, выражение лица, убедительное мычание, а главное – немногочисленность и ожидаемость тем разговора. Так что три тысячи основных единиц – это не просто много, это очень много.

А из этого «очень много» сразу же следует сомнительность числа 3000 как константы. Всё зависит от исходных установок анализирующего. Какие морфы зачислить в основные, а какие – так, обойдемся? Что если взять 2000 или 4000 основных элементов? Самый простой вопрос: как проверить правильность утверждения об этой константе для разных языков? Подчеркну: как в принципе? Боюсь, что никак.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-09 12:57 (ссылка)
Трудно, не зная броду... Я ведь не очень представляю, как там слова считают. Был бы у меня опыт таких работ - представлял бы, а так... но вот видите какие занимательные цифры http://ivanov-petrov.livejournal.com/334578.html?thread=8720370#t8720370

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]groovy_merchant@lj
2006-03-09 20:21 (ссылка)
Вот, к примеру, здесь http://www.zein.se/patrick/3000en.html можно посмотреть кой-какую статистику, там же и две – из дюжины примерно - ссылки на аппарат и методику.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-10 04:01 (ссылка)
спасибо

(Ответить) (Уровень выше)


[info]groovy_merchant@lj
2006-03-08 21:05 (ссылка)
Чувствую я некое предубеждение относительно Эллочки…

Девушка не была примитивной. Даже в речевых ситуациях романа можно видеть, что ее речь насыщена всякими оттенками невербального свойства, достаточно сравнить ее язык с вполне монотонным говорением ее инженерного мужа. Легко представить, например, интонацию Эллочки, модуляцию ее голоса, темп речи, жест, сопровождающий ремарку, или усиление голоса на каком-то слове или слоге. Напротив, муж даже нагишом в подъезде не умел себя выразить. Только хрюком…

Для актрисы, вероятно, такую роль сыграть просто. Мы ведь так умеем отличить хорошего актера от дурного, не по текстовкам ведь, которые они произносят?

Я, вероятно, банальность скажу - это потому, что человек говорит не только, чтобы сообщить факт, но и чтобы выразить чувства или воздействовать на других. Был, говорят, такой исключительно успешный переговорщик-заика. Вероятно, его произносительный запас слов был невелик, но превосходен по результатам употребления.

А кроме того, мы не можем судить об объеме словаря по его одной активной части, как никто не исчисляет количество населения страны по числу Нобелевских лауреатов.

Что же до словников текстов… В Ветхом Завете 5 642 слова, в Новом около 4 800. У Гомера приблизительно 9 000, он вообще был многословен. В этих четырех книгах сказано довольно, чувства, что их составители стеснялись словарем, у меня, по крайней мере, не возникает.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-09 04:42 (ссылка)
Великолепно! Достоинства Эллочки не будем подвергать сомнению; я верю, что невербальные способы коммуникации у нее были на высоте и, окажись она нагишом в подъезде, она выразилась бы много красноречивее своего мужа - даже с кляпом во рту. Очень интересно про число слов. Я этих цифр не знал... Видите ли, мне это еще с одного боку интересно. Есть довольно много задач по свертке многообразия без существенной потери качества. Одна из них довольно смешная. На Земле многие миллионы видов живых существ, и изучают их систематики. А сколько видов может знать один систематик? Я тут где-то уже рассказывал: около тысячи в среднем (опытов не было. это так - мнение из разговоров), совершенно уникальные люди помнят до 3000. Это, конечно, не названий - а всей совокупности данных, название, основные синонимы, признаки, вариации. распространение и т.д. Но "отдельностей" - вот. от 1000 до трех.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]groovy_merchant@lj
2006-03-09 20:24 (ссылка)
Ну, тогда вот еще что. В реконструкциях языковых семей, как известно, выделяется слой общей для каждого такого конгломерата лексики. И вот, обычное число унаследованного фонда слов будет колебаться где-то в области трех тысяч.

Для индо-европейской семьи, скажем, восстанавливают около 3 400 общих лексем, а для алтайской что-то около 2 600. По каждому случаю реконструкции можно высказывать всякие мнения, но порядок, в общем, сохраняется. Это не значит, что слов было столько, это значит, что примерно такой фонд сохраняется спустя примерно пять или шесть тысячелетий.

Для макросемей, вроде ностратической, число реконструкций составит около полутора тысяч.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2006-03-10 04:04 (ссылка)
Тут я уже, пожалуй, утерял связь событий. Мне кажется, носители языка не разделяют заимствования и "старую" лексику. Тогда что значит утверждение (или факт...), что через 5-6 тыс. лет остается примерно 3000 слов от прежнего состояния? Можно пожумать - а еще через 5000 останется... еще несколько меньше. Или - можно подумать - есть некий минимум слов, ядро, которое всегда остается в языке, наследие предков, передаваемое майоратом. То есть я вижу сходство цифр (вокруг 3000), но не понимаю, что это значит.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]groovy_merchant@lj
2006-03-10 11:11 (ссылка)
Просто эмпирика. Пересекающееся множество лексики и.-.е. языков составит три с копейками тысячи лексем. Больше не нашли. А алтайском меньше, но это, возможно, потому что им начали заниматься позже и народу задействовано на порядок меньше. Ну, и сам алтайский старше, точнее, он раньше распался.

Собственная старая лексика и заимствования, ясное дело, не разделялись. Но здесь важно, что это были заимствования на индоевропейском уровне, сделанные до распада и.-е. языка. От того языка осталось вот столько слов, которые мы корректно умеем выделять.

(Ответить) (Уровень выше)