Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2010-12-15 20:09:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
http://gtmarket.ru/news/culture/2007/10/19/1433
<<<Обнаружены общие закономерности лингвистической и биологической эволюции
В журнале Nature опубликованы сразу две статьи, посвященные изучению темпов лингвистической эволюции в зависимости от частоты словоупотребления. Ведущие авторы обеих статей — биологи. С результатами обоих исследований можно ознакомиться в последнем выпуске журнала.

Экстраполируя свои результаты в будущее, авторы предсказывают, что, если выявленные тенденции сохранятся, к 2500 году еще 15 глаголов из исследованной выборки станут правильными, причем первым скорее всего «регуляризуется» самый редкий из них (to Wed «сочетаться браком»). Строго говоря, он уже отчасти регуляризован: словари разрешают спрягать его также и как правильный глагол (наряду с «неправильной» формой прошедшего времени — Wed, в словарях приводится «правильная» — Wedded).

Соавтор исследования Эрез Либерман (Erez Lieberman), аспирант по прикладной математике из Гарвардского университета, говорит: «Будучи часто употребляемым, глагол становится более устойчивым. В языке действует такое же правило естественного отбора, что и в биологической эволюции». Автор книги «Математическая природа языка», профессор математики и статистики Чикагского университета Парта Нийоджи (Partha Niyogi) так комментирует исследование: «Биологические модели развития совместимы с лингвистическими. Языки постоянно изменяются, как и биологические виды».

***
Слова из разных языков, обозначающие одно и то же понятие и являющиеся потомками одного и того же слова, объединялись в «родственные группы». Например, слово, выражающее значение «два» во всех индоевропейских языках относится к одной и той же родственной группе (англ. two, нем. zwei, исп. dos, фр. deux, русск. два, и так далее), тогда как, например, значение «хвост» представлено в исследованных 87 языках 28 группами (греч. ????, нем. Schwanz, фр. Queue, англ. Tail — примеры слов, относящихся к разным группам). Общее число родственных групп для 200 значений в 87 языках оказалось равным 4049.

Для каждого из 200 понятий была определена частота встречаемости. С этой целью авторы проанализировали большой массив данных по устной и письменной речи для четырех языков: английского, испанского, русского и греческого (от 20 до 100 млн. слов для каждого языка). Эти языки представляют далекие друг от друга ветви индоевропейской семьи. Выяснилось, что частота употребления различных понятий в четырех языках весьма сходна, иначе говоря, понятия, часто употребляемые в одном из языков, скорее всего и в других языках употребляются часто, и наоборот.

Следующим шагом было построение эволюционного древа 87 индоевропейских языков. Основой для построения древа послужила таблица из 87 X 4049 нулей и единиц, отражающая наличие или отсутствие каждой из 4049 словесных групп в каждом из 87 языков. При этом были использованы сложные математические методики построения эволюционных деревьев, разработанные биологами-эволюционистами.

...Затем авторы построили графики зависимости скорости словоизменения от частоты словоупотребления в английском, русском, испанском и греческом языках (см. рис). Оказалось, что для каждой части речи в отдельности и для всех понятий в целом между этими двумя показателями наблюдается хорошо выраженная обратная зависимость. Чем чаще употребляется слово, тем медленнее оно изменяется.

По мнению авторов, эта зависимость может объясняться двумя причинами:

1. Люди реже ошибаются при произнесении, запоминании и восприятии на слух часто употребляемых слов. Это предположение подтверждается эмпирическими данными.
2. Люди (популяция носителей языка) реже соглашаются принять новшество, если речь идет о часто употребляемом слове.

Вполне возможно, что работают одновременно оба механизма. Заметно, что они полностью аналогичны ключевым факторам биологической эволюции, а именно скорости мутирования и эффективности стабилизирующего («очищающего») отбора. Авторы предполагают, что «мутации» в наиболее важных словах чаще отсекаются «отбором», потому что такие мутации ведут к наибольшему риску взаимного непонимания. Возможно, именно поэтому из всех частей речи медленнее всего изменяются как раз те, «мутации» в которых почти всегда ведут к полной потере или искажению смысла фразы (числительные, местоимения и «специальные наречия»).

Обнаруженная закономерность, скорее всего, справедлива и для других языковых семей. Например, теми же авторами в 2006 году было показано, что понятия, характеризующиеся высокой частотой словоизменения в индоевропейских языках, обладают тем же свойством и в языках банту.''

Авторы отмечают, что найденная закономерность позволяет сделать любопытные прогнозы. Во-первых, можно ожидать, что при расхождении двух языков, имеющих общего «предка», различия будут накапливаться сначала в менее важных словах, и поэтому два языка будут оставаться взаимно понятными намного дольше, чем следовало бы ожидать, исходя из предположения о случайном распределении возникающих изменений по всему лексикону. Во-вторых, исследование показало, что часто употребляемые слова могут сохраняться в узнаваемом виде 10 000 лет и более; это значит, что в культурной эволюции возможны «репликаторы» — мемы, почти сопоставимые по надежности своей репликации (передачи, воспроизведения) с некоторыми генами.
http://www.nature.com/nature/journal/v449/n7163/extref/nature06176-s1.pdf

Сравнение лингвистической эволюции с биологической встречалось ранее во многих работах (например, A. Wedel. Exemplar Models, Evolution and Language Change // The Linguistic Review. 2006. V. 23. P. 247–274 http://dingo.sbs.arizona.edu/~wedel/publications/PDF/WedelExEvLangChange.pdf) и, несомненно, имеет право на существование, однако проводить аналогию между словами и живыми особями, языками и биологическими видами следует с известной осторожностью. Механизмы возникновения, развития и исчезновения биологических и лингвистических объектов все же достаточно разные. Тем не менее есть основания полагать (и рассмотренные работы это подтверждают), что некоторые общие механизмы обоих типов эволюции могут описываться одними и теми же методами, что, разумеется, чрезвычайно интересно и с практической, и с теоретической точки зрения.

http://www.nature.com/nature/journal/v449/n7163/abs/nature06137.html
http://www.nature.com/nature/journal/v449/n7163/abs/nature06176.html


(Добавить комментарий)


[info]eka42003@lj
2010-12-15 14:29 (ссылка)
Они перелопатили кучу материала, но и до этого всё было очевидно. Неправильные глаголы именно потому неправильны, что часто употребляются, в том слове и в той форме, которая употребляется реже, чаще делаются ошибки. Эх, надо было давно это опубликовать! Но даже не приходило в голову, что это - открытие.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 14:36 (ссылка)
угу. у меня тоже было впечатление, что это банально. Но мало ли - я стол ь удален от этой области. что мне чуть не что угодно может банальным показаться. а подай мне красиво - и я деление на существительные и глаголы увижу как величайшее открытие

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivan_babicki@lj
2010-12-15 14:58 (ссылка)
Не только банально, но и отчасти очевидно неверно. Те же "два" в индоевропейских языках действительно происходят от одного корня, но никакой фонетической устойчивостью не обладают. Поэтому даже внутри германской семьи английское "ту" и немецкое "цвай" взаимопонятны только в том случае, если при произнесении показать два пальца.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 15:01 (ссылка)
Вот как чувствовал я, что нельзя биологам языки доверять. Это всё равно. что каждому лингвисту по черепахе выдать. Упадут, ушибут музыкальную косточку, выматерят невинную жену, выбросят черепаху с балкона, и всё это хулиганство - без всякой пользы для земной жизни.

(Ответить) (Уровень выше)


[info]zhiharka@lj
2010-12-15 15:55 (ссылка)
А уж как далеко ушло армянское слово "два" от общего и.-е. предка...

(Ответить) (Уровень выше)


[info]ext_30732@lj
2010-12-15 17:59 (ссылка)
Фонетическая устойчивость при таких подсчетах ни при чем.
Считается вероятность замены корня.

(Ответить) (Уровень выше)


[info]qaraabayna@lj
2010-12-16 15:15 (ссылка)
"подай мне красиво " иногда складывается ощущение, что очень часто это - главный критерий публикации в Nature

(Ответить) (Уровень выше)


[info]egmg@lj
2010-12-16 19:59 (ссылка)

вы с ума сошли - банально?

это доказывает то, что язык никакой не фантом, неизвестно откуда взявшийся и как функционирующий. Язык подчиняется тем же законам эволюции, что и биологическая жизнь. Вы вообще не понимаете смысла слов, которые читаете, не понимаете контекста, в который вписано это сообщение. Вы вообще очень далеки от мысли. От любой.

(Ответить) (Уровень выше)


[info]am_tiger_a@lj
2010-12-15 14:42 (ссылка)
> (от 20 до 100 млн. слов для каждого языка)

А что, есть языки с таким количеством (хотя бы 20 млн.) слов?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 14:45 (ссылка)
что-то жуткое творится с языками в руках биологов. Мутируют и дурно пахнут

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]am_tiger_a@lj
2010-12-15 14:51 (ссылка)
Рекордсмен по лексической ёмкости среди известных сегодня землянам языков - английский и то не дотягивает и до десятка млн. слов (даже если считать со словоформами).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 14:56 (ссылка)
То есть коли каждому китайцу подарить равную долю английских слов, так они за день это дело выучат наизусть и растащат. Мелкий язык, практически карликовый.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]am_tiger_a@lj
2010-12-15 14:59 (ссылка)
А много и не нужно.
Очень редкий человек знает/использует более 100 тысяч слов.

(Ответить) (Уровень выше)


[info]ivan_babicki@lj
2010-12-15 15:02 (ссылка)
100 млн - это про "проанализировали большой массив данных".
Число слов в языке - в общем виде бессмысленное понятние. В немецком языке, например, оно вообще бесконечно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]am_tiger_a@lj
2010-12-15 16:20 (ссылка)
> 100 млн - это про "проанализировали большой массив данных"

Спасибо, я умею читать.
Буквальная цитата:
> (от 20 до 100 млн. слов для каждого языка)

Внимательно - для каждого языка - т.е. семантика цитаты абсолютно прозрачна и не допускает разночтений.


> Число слов в языке - в общем виде бессмысленное понятние.

Да? А мужики-то и не знали (см.ссылку ниже). Только Вы об этом больше никому не говорите, ладно?
The Global Language Monitor (http://www.languagemonitor.com/no-of-words/)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivan_babicki@lj
2010-12-15 17:30 (ссылка)
Объясню ещё раз и медленно: фраза "С этой целью авторы проанализировали большой массив данных по устной и письменной речи для четырех языков: английского, испанского, русского и греческого (от 20 до 100 млн. слов для каждого языка)" означает, что на каждом из упомянутых языков были проанализорованы тексты суммарным объёмом от 20 до 100 млн слов.
Что в английском языке принято подсчитывать число слов и обязательно определять его цифрой, кратной 100000, я знаю и безо всяких ссылок. Такая традиционная забава.

(Ответить) (Уровень выше)


[info]fregimus@lj
2010-12-15 21:26 (ссылка)
Понятие количества слов в языке бессмысленно.

Тут говорится, что «авторы проанализировали большой массив данных… от 20 до 100 млн. слов…». Не говорится, что все слова в массиве были разными. Как раз наоборот — они же частоту всречаемости слов считали, которая осмысленна, только если слова встречаются больше одного раза.

(Ответить) (Уровень выше)


[info]petsen@lj
2010-12-15 14:46 (ссылка)
... Мине тута один чэк грит, что мол не верь ушам своим, это просто примеры статистических аномалий.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 14:55 (ссылка)
Дык ежели чего, у нас всё - статистическая аномалия. Жизнь вот - она, и язык. и сознание, всё - статистические практически аномалии. Чэк, конеша, дело говорит

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]petsen@lj
2010-12-15 15:01 (ссылка)
Не, ежели-это раритет, а вот чэк, грит, 's, je pas -видимо, у этих биологов аномалии. У нас ведь как, еси где чего залеживается, то его сразу недостача. Если ты частотный -получи фейсом об тэйбл фонетическую контракцию, и грош цена твоей дипломатической неизменяемости.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 17:02 (ссылка)
вот как раз Иванова бьют http://smixer.ru/news/a-181.html

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]petsen@lj
2010-12-15 18:03 (ссылка)
И ведь этих наци тоже поддерживает правительство: один ЕГЭ чего стоит. А страдают, как всегда, Ивановы. Хорошо, что Вы еще немножко и Петров тоже.

(Ответить) (Уровень выше)


[info]adlov@lj
2010-12-15 14:54 (ссылка)
Согласен, что про неправильность и т.п - общее место. И сама идея, что язык эволюционирует естественным путем, немного устарела с тех пор, как в каждой уважающей стране профессора стали выпускать словари и издавать предписания по поводу речевого поведения.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 14:57 (ссылка)
Словари надо выпускать с переплетом, залитым свинцом, и удобной ухватистой ручкой. тогда предписания по речевому поведению будут весомее

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]adlov@lj
2010-12-15 15:40 (ссылка)
Следующий шаг в сторону от природы.

(Ответить) (Уровень выше)


[info]russhatter@lj
2010-12-15 15:06 (ссылка)
часто употребляемые слова могут сохраняться в узнаваемом виде 10 000 лет и более; это значит, что в культурной эволюции возможны «репликаторы»
А можно примеры в студию? Нет, я в курсе, что в родственных языках сохраняются слова, и знаю немножко примеров. Но можно ли получить какой-нибудь минимально содержательный пример "репликатора"? Между тем "вода - мокрая", а "трава - зелёная" сказать можно почти на любом языке, и змысл в этом есть.
В-общем, не гони, ямщик, ты - гонишь...

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 15:12 (ссылка)
я не помню. это что-то вроде небо, мама, рука - какие-то такие должны быть штуки. Тут должен выступить санскритолог и привести разительные примеры. я же что? Я же могу лишь дивиться биологической силе. Биолог - это жуткой силы человек. он умеет строить деревья. Другой какой менеджер и людей-то не может, а у биолога - даже дубы стоят не шелохнутся.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]misha_makferson@lj
2010-12-16 04:35 (ссылка)
Список Сводеша что ли?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-16 04:41 (ссылка)
ну, к примеру

(Ответить) (Уровень выше)


[info]fregimus@lj
2010-12-15 21:33 (ссылка)
Ну, например, санскритские слова girati, pibati, и, прошу прощения, yabhati мало изменились с индоевропейских времен. Все зависит от частоты употребления.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]russhatter@lj
2010-12-16 01:30 (ссылка)
Ну, да: слова есть, я знаю. Но мне показалось, что продают культурные репликаторы хоть какой-то заметной мощности. Если речь только о тех же известных примерах редких неизменных слов - я не понимаю пафоса "культурной репликации". Мне кажется, что меня надувают.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2010-12-16 05:05 (ссылка)
Ну да, «исследование показало», что они сохраняются 10К лет — это сильно, да, но это все-таки журналистское популярное изложение. Надо статью читать, но я что-то пока не в силах себя заставить. Вот соберусь с духом — и…

(Ответить) (Уровень выше)


[info]riftsh@lj
2010-12-15 15:57 (ссылка)

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-15 16:40 (ссылка)
спасибо

(Ответить) (Уровень выше)


[info]edricson@lj
2010-12-15 16:32 (ссылка)
Это очень мощный тренд в последнее время: формальную грамматику (в широком смысле, т.е. изучение закономерностей функционирования конкретного языка) хотя бы на словах отменить, а все выводить из частоты употребления. К сожалению, многие люди зачастую верят собственной рекламе и делают крайне смелые, но легко опровергаемые утверждения. Например, эта идея о том, что часто употребляемые слова идут в авангарде языковых изменений, прокламируется как факт уже лет двадцать, хотя даже на уровне анекдотов понятно, что не все так просто: многие редкие слова на деле произносятся "консервативно" (тут еще проблема в том, что огромная часть эмпирики делается на английском, причем частоты очень часто берутся из письменных корпусов, куда попадает множество слов, знакомых нормальному носителю только на письме), и, наоборот, каждый, кто учил иностранный язык, знает, что именно самые употребимые зачастую формы имеют неприятное свойство быть неправильными.

Вообще эмпирика реальных языковых изменений только-только начинает развиваться. Ключевое имя здесь - Уильям Лабов, и он как раз не нашел на огромном корпусе такой уж прямой зависимости между частотой и скоростью изменений (точнее, почти никакой зависимости не нашел). Более контролируемые эксперименты часто находят какую-то статистическую значимость, но время для таких грандиозных заявлений (по моему скромному мнению) придет еще очень не скоро.

(Ответить) (Ветвь дискуссии)


[info]edricson@lj
2010-12-15 16:33 (ссылка)
(оговорился, конечно, утверждение в том, что более частотные слова сопротивляются)

(Ответить) (Уровень выше)


[info]ivanov_petrov@lj
2010-12-15 16:42 (ссылка)
а
http://en.wikipedia.org/wiki/William_Labov
не слышал такого. спасибо
химик
интересный мужик

(Ответить) (Уровень выше)


[info]ext_30732@lj
2010-12-15 18:08 (ссылка)
http://starling.rinet.ru/Texts/Starostin_GlottoRus.pdf
Статья Старостина 1989 г., где обсуждается различие вероятности замен для разных слов стословного списка (см. начиная с конца стр. 424). Впрочем, про связь с частотой употребления ничего не говорится.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-16 03:34 (ссылка)
спасибо

(Ответить) (Уровень выше)


[info]fregimus@lj
2010-12-15 21:39 (ссылка)
Охохонюшки… 87 × 4049 нулей и единиц — это 352263 нулей и единиц. Это, в общем, все, что мне хочется сказать.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2010-12-16 03:34 (ссылка)
Страшные вещи Вы говорите.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2010-12-16 04:59 (ссылка)
Сам пугаюсь.

(Ответить) (Уровень выше)