ivanov_petrov: Миры Щербакова 1

Миры Щербакова 1
Предмет исследования задается целью и методом. Цель – попытаться проникнуть в то, что называется «художественным миром» поэта, понять картину мира М. Щербакова. Для этого используют самые разные методы, например, можно изучить статистический анализ лексики его произведений, проще говоря – работать с частоткой.

Метод
Метод состоит из двух больших этапов. Первый – работа с частотным словарем лексики, второй – работа по построению семантических карт. На первом этапе желательно получить список слов, с которыми имеет смысл работать на втором этапе.

Частотный словарь и сравнение очередностей
Имея частотный словарь лексики поэта, делать какие-либо заключения трудно, поскольку выводы не относятся именно к его творчеству. Например, некое слово может оказаться самым частым словом в языке, и то, что оно – самое частое у этого поэта, говорит только о том банальном факте, что он пишет на определенном языке.

Значит, для того, чтобы делать выводы о частоте использования слов, надо сравнить частотный словарь поэта с каким-то усредненным словарем, общим словарем частотной лексики. Для сравнения в данном случае выбран словарь: О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

На самом деле и такой прием не позволяет утверждать, что то, что изучается этим методом – именно художественный мир данного поэта, а не что-то иное. Ведь этот общий частотный словарь составляется на материалах за определенное время, по определенным жанрам литературы. Скажем, там может быть велика доля газетных, публицистических текстов, или основной корпус текстов относится к 30-60-м годам, а наш поэт пишет вовсе не в 60-е годы. Тогда различия в частоте использования слов относятся не к его собственному художественному миру, а только к отличию некоторого среза современной речи от речи 60-х годов. Или данное частотное отличие относится к поэтической речи вообще. Правильно было бы иметь гарантированно современный поэту словарь частот или даже словарь частот поэтической речи и сравнивать с частоткой по его корпусу.
Все же можно попытаться сделать результат работы с частоткой более доказательным, взяв по возможности приличный частотный словарь, наиболее современный. Но затем требуется провести вторую часть работы, которая и позволяет говорить о художественном мире именно данного автора. Работа с частоткой служит лишь методом наведения на цель, а не основанием для окончательных выводов.

После того, как мы сравниваем частный словарь автора и общий по языку словарь частотной лексики, мы можем выделить слова, которые у автора встречаются чаще, чем в общей лексике, и те, что встречаются реже. Однако тут есть трудность. Дело в том, что сами частоты слов мало о чем говорят. Частота употребления слова относится к тому корпусу, на котором она исследовалась – сравнивать выборку на миллионы в словаре общей лексики и выборку по песням Щербакова прямо по частоте – пустое дело.

Частоты слов служат для двух целей. Первое – они показывают «цену деления» - когда два соседних слова в списке отличаются по частоте, скажем, на 500, а другие два – на 5, это указывает на прохождение некоторой частотной границы. То есть на важность смены позиции слова в списке. Тем самым мы используем не саму частоту (которая неконвертируема в другую базу текстов), а получаемую через частоту очередь слов – их место в списке, относительное место.
Работа я с местами, мы можем сопоставить два списка – частотку Щербакова и общую частотку. Скажем, если в одном списке некое слово занимает второе место, оно чуть не самое часто встречающееся, а в другом – оно же занимает, допустим, 500-е место, то именно этот разрыв в месте списка, а не разрыв по самой частоте, служит основанием присмотреться к данному слову.
Итак, сопоставляя списки частоты слов, мы получаем аномалии списка Щербакова в отличие от общей базы. Эти аномалии бывают самые разные. Например, слово может сменить позицию на единицу – в общем списке это, допустим, 83-е по частоте слово, а у Щербакова оно – 82-е. Такое изменение позиции следует считать незначимым – корпус Щербакова намного меньше общего, в нем могут быть небольшие статистические аномалии, которые ничего существенного с точки зрения нашей задачи не означают.

Чтобы выводы были более достоверны, лучше принять как значимые самые большие отличия, пренебрегая мелкими различиями в частоте. Мы получим несколько классов отличий – скажем, когда место меняется на два порядка, на один порядок и т.п. То есть, например, слово в общем словаре – среди пятитысячных по месту в очереди, а у Щербакова – в первых трех десятках. Это очень существенная перемена места. Так мы можем ранжировать смены места в списке на очень сильные и явно значимые и сомнительные, менее значимые.

Тогда появляется платформа из «подозрительных» слов – тех, которые автор использует особенно часто или особенно редко. При этом следует помнить, что помимо самого номера места на наше отношение к словам будет влиять также и то, о каким именно месте речь. Например, если в общем списке слово – восьмое по частоте, а у Щербакова оно же – 24-е, то это очень заметное снижение частоты (у Щербакова по сравнению с общим списком). А если в одном списке слово 1216, а в другом – 1200-е, то это ничего не значит, просто небольшая флуктуация. Тем самым слова самые частые, во главе списка, весят больше и там перемещения в очереди важнее, чем такие же по абсолютной величине перемещения в хвосте распределения по частоте.

При сравнении списков мы получим четыре списка слов. Два списка – списки отсутствия, то есть список слов, которых нет у Щербакова, и список, которого нет в общей частотке (это возможная ситуация, ведь общий список может не включать какие-то достаточно редкие слова или неологизма. Короче, теоретически возможно, чтобы Щербаков употреблял слова, которых нет в общем списке слов русского языка – он же принципиально неполный). Еще два списка – один список «горячий», когда Щербаков употребляет некие слова намного чаще, чем этого можно ожидать из их места в общем списке, и список «холодный» – когда у Щербакова слова употребляются значительно реже, чем этого можно ожидать из их места в общем списке, занимают в частотке Щербакова место с намного большим номером, чем такое же слово в общей частотке.
Получив такие списки «особенных» по частоте их употребления слов, мы можем перейти уже к индивидуализирующему сравнению. Все предшествующие процедуры были скорее очерчиванием круга подозреваемых, чем прямыми попытками понять художественный мир поэта. Само по себе изменение места слова в списке-частотке еще не говорит, что автор очень особенно к этому слову относится – например, может быть, в какой-то песне частый припев существенно повысил частоту слова, и более оно ничем не примечательно.

Поэтому после создания списков подозрительных слов, слов с особенной частотой встречаемости в корпусе Щербакова, которая сильно отличается от места в списке встречаемости в общем корпусе – надо перейти к семантическому анализу, содержательному, понять, что эти слова делают, какие картины они рисуют.

(Добавить комментарий)

chautbenaht@lj
2012-10-20 06:27 (ссылка)

Спасибо, поучительное исследованиее!
С точки зрения слушателя у Щербакова очень богатый тезаурус, что фактически выталкивает его из мутной среды "бардовской песни" на гораздо более высокие уровни творчества. Но такая формулировка - банальность))

(Ответить) (Ветвь дискуссии)

ivanov_petrov@lj
2012-10-21 00:37 (ссылка)

Да, у него странный вид частотки - обычно у авторов она "головастая", то есть мощное ядро часто употребляемых слов и сравнительно короткий хвост. А у Щ. комета - маленькое ядро и очень, очень длинный хвост, то есть он употребляет слова по разу, и самые редкие и неожиданные.

(Ответить) (Уровень выше)

	9in_10in@lj 2012-10-20 13:24 (ссылка)
	Если это Ваша работа, то Вы нарочно не учитываете ни Левина с коллегами (1960-е!), ни Гаспарова? (Ответить) (Ветвь дискуссии)

	ivanov_petrov@lj 2012-10-21 00:34 (ссылка)
	Почти нарочно. Левина не помню, или не знаю. (Ответить) (Уровень выше)

	nomen_nescio@lj 2012-10-20 14:02 (ссылка)
	Чей это диплом и где защищён? (Ответить) (Ветвь дискуссии)

	ivanov_petrov@lj 2012-10-21 00:34 (ссылка)
	Ничей, нигде. (Ответить) (Уровень выше)

fregimus@lj
2012-10-20 21:44 (ссылка)

1. Я понимаю так, что это Ваша работа, да? Может быть, пока еще не дошло дело до библиографии, но мне бы тогда забежать вперед — где описан этот метод семантических карт? Если у Вас есть под рукой статьи, не могли бы Вы их выложить или прислать?

2. Можете поделиться исходными текстами, которые анализировались, более-менее полное собрание текстов Щ. в виде файлов? Мне попал в руки интересный гвоздобитный микроскоп для кластеризации текстов, выделения из них семантических концепций. Он хорошо работает с большим набором небольших (оптимум 50 слов, но если больше, то делается subsampling) «документов», подборка стихотворений как раз очень хороша. Получаются кластеры с центральным концептом, причем одно и то же слово разбирается иногда по нескольким кластерам (омонимия — только один из примеров, самый яркий, но абстрактные сущ. тоже часто формируют несколько отдельных кластеров). Было бы очень любопытно сравнить, что можно вытянуть из одного и того же корпуса разными методами.

(Ответить) (Ветвь дискуссии)

ivanov_petrov@lj
2012-10-21 00:36 (ссылка)

Не будет библиографии. Нигде не описан. Метод сокращенно могу выложить. Но там длинный для ЖЖ текст, ругаться будут. С другой стороны - пускай ругаются, конечно. Вот немного как-то увижу свет как копеечку и выложу.

Увы, нет. Эти файлы не мои, и у меня такое чувство, что я не могу свободно распоряжаться чужими материалами. С другой стороны, я видел в сети сайты Щ., где очень много текстов. Не помню точно, но, кажется, там довольно удобно копировать.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	fregimus@lj 2012-10-21 00:47 (ссылка)
	Пусть ругаются, это ничего. С файлами понятно, вытащу сам. (Ответить) (Уровень выше)

nikolenko@lj
2012-10-21 03:08 (ссылка)

Ещё в случае исследования песен или рассказов, особенно не десятков тысяч, надо как-то дополнительно нормализовать на отдельные тексты – песня "Караван", небось, может в одиночку вытащить "верблюда" в топ-100, хотя никакого реального смысла это не имеет.

(Ответить) (Ветвь дискуссии)

	ivanov_petrov@lj 2012-10-21 04:47 (ссылка)
	Любой способ такой нормализации будет заподозрен именно в этом - что он вытаскивает отдельные песни. (Ответить) (Уровень выше) (Ветвь дискуссии)

fat_crocodile@lj
2012-10-21 07:25 (ссылка)

Наверное предлагается просто считать не количество вхождений слова в корпус, а количество песен, в которые слово входит. Тогда верблюд будет один, а гор останется много, потому что верблюд случайный, а горы -- важная часть авторского мира.

Но не очень понятно, можно ли такой список сравнивать со стандартным частотным словарём.

(Ответить) (Уровень выше)

nikolenko@lj
2012-10-21 07:31 (ссылка)

Не совсем понял Ваш ответ; в простейшем варианте можно просто считать число песен, в которое входит слово. Правда, тогда труднее сравнивать с общим словарём будет; зато интереснее, ИМХО, будет сравнение с другими коллекциями песен/рассказов.

(Ответить) (Уровень выше) (Ветвь дискуссии)

ivanov_petrov@lj
2012-10-21 07:36 (ссылка)

Можно, конечно. Но с общим сравнивать нельзя. Насчет интереса сравнения с другими - это просто беспредметный разговор. Сравнение бывает только то, которое делается. Вот когда будут на столе рядом частотка Мандельштама и Щербакова и будет задача сопоставления - тгогда можно решать, как с этой задачей справиться. пока задачи нет - всё попусту.

(Ответить) (Уровень выше)

a_marko@lj
2012-10-21 18:09 (ссылка)

Мне кажется, такой метод вытаскивает специфику не только Щербакова, но и вообще того жанра, в котором он работает; он же не в вакууме. М.б., его специфика выделилась бы яснее при сравнении с частотой слов не вообще в языке, а в текстах соверменных ему песенников?

(Ответить) (Ветвь дискуссии)

	ivanov_petrov@lj 2012-10-22 11:16 (ссылка)
	это верно (Ответить) (Уровень выше)