Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет kassian ([info]kassian)
@ 2012-03-01 23:47:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
К вопросу о конкурсе мудаков
Оригинал взят у [info]sergej_krylov@lj в К вопросу о конкурсе мудаков
Кто у нас мудак?
(опыт исследования экстенсионала лексемы "мудак" на основе исследования Интернет-массивов)

В настоящей работе сделана попытка экспериментального изучения экстенсионала лексемы "мудак" на основании количественной обработки данных из русскоязычного Интернета. Для нелингвистов поясняю: экстенсионал - это то множество предметов или лиц, которое может быть обозначено данным словом или реально обозначено ею. Данные были получены следующим образом. В поисковой строке поисковой системы «Яндекс» искался заданный в кавычках текстовый фрагмент, имеющий структуру «X мудак», где переменная X заполнена обозначением того или иного лица в форме именительного падежа. Результаты подсчётов представлены в таблице 1, приводимой ниже.
Таблица 1.


1


Путин


796


2


Буш


624


3


Ленин


418


4


Сталин


341


5


Михалков


297


6


Ющенко


289


7


Гитлер


270


8


Саакашвили


255


9


Навальный


240


10


Ельцин


234


11


Янукович


228


12


Лебедев


211


13


Медведев


181


14


Горбачёв


170


15


Фурсенко


160


16


Лужков


157


17


Фрейд


146


18


Киркоров


143


19


Гейтс


142


20


Билан


127


21


Задорнов


126


22


Лукашенко


125


23


Обама


119


24


Жириновский


117


25


Немцов


110


26


Брежнев


90


27


Клинтон


90


28


Прохоров


86


29


Гоголь


85


30


Рейган


78


31


Толстой


69


32


Зюганов


67


33


Хрущёв


67


34


Онищенко


63


35


Каддафи


61


36


Лимонов


59


37


Бибер


56


38


Пушкин


55


39


Шевчук


55


40


Губерниев


53


41


Сердюков


49


42


Собянин


48


43


Эрнст


48


44


Кудрин


47


45


Познер


46


46


Дарвин


45


47


Шендерович


43


48


Каспаров


42


49


Саркози


42


50


Яшин


40


51


Миронов


37


52


Пелевин


37


53


Кучма


36


54


Цой


36


55


Чубайс


35


56


Дугин


34


57


Грызлов


33


58


Летов


33


59


Макаревич


33


60


Галкин


32


61


Децл


32


62


Солженицын


32


63


Явлинский


31


64


Носик


30


65


Петросян


30


66


Шойгу


29


67


Зверев


28


68


Березовский


27


69


Козырев


26


70


Достоевский


24


71


Абрамович


23


72


Гайдар


23


73


Маркс


23


74


Чехов


23


75


Греф


22


76


Митрохин


22


77


Сахаров


22


78


Сурков


22


79


Тимоти


22


80


Кургинян


21


81


Чуров


20


82


Берия


19


83


Бродский


19


84


Павловский


19


85


Сорокин


19


86


Фоменко


19


87


Ходорковский


19


88


Эйнштейн


19


89


Кравчук


18


90


Рогозин


18


91


Троцкий


18


92


Берлускони


17


93


Гарри Поттер


17


94


Проханов


17


95


Штирлиц


17


96


Маяковский


16


97


Парфёнов


16


98


Геббельс


15


99


Чавес


15


100


Наполеон


14


101


Гельман


13


102


Ньютон


13


103


Хусейн


13


104


Есенин


12


105


Церетели


12


106


Касьянов


11


107


Моцарт


11


108


Сорос


11


109


Бжезинский


10


110


Булгаков


10


111


Колумб


10


112


Лазарев


10


113


Лермонтов


10


114


Милошевич


10


115


Шекспир


10


116


Белковский


9


117


бен Ладен


9


118


Горький


9


119


Гребенщиков


9


120


Зайцев


9


121


Круг


9


122


Назарбаев


9


123


Аксёнов


8


124


Бах


8


125


Дерипаска


8


126


Столыпин


8


127


Цезарь


8






(Добавить комментарий)


[info]nornore@lj
2012-03-01 17:16 (ссылка)
Я голосую за Цезаря! Он - наименее мудак!

(Ответить)


[info]banshur69@lj
2012-03-01 17:29 (ссылка)
Отрадно, что в списке нет Высоцкого. Но Иван-Севастьян-то что им сделал?

(Ответить) (Ветвь дискуссии)


[info]sergej_krylov@lj
2012-03-02 05:47 (ссылка)
Высоцкий был (в экспериментальной версии), но не дотянул по рейтингу. Всего 6 баллов. А у меня проходной балл 8.

Про Баха данные не блещут особой чистотой, так как не отфильтровывались однофамильцы композитора. Так же, впрочем, как и однофамильцы Артемия Лебедева. Увы, причиной тому банальная лень (делу время, потехе час): интернет-замеры - это моё хобби, но основная профессия - другая.

(Ответить) (Уровень выше)


[info]artn@lj
2012-03-02 06:34 (ссылка)
Я бы отнёс к упоминанию X в интернете вообще.

(Ответить) (Ветвь дискуссии)


[info]sergej_krylov@lj
2012-03-02 08:59 (ссылка)
Сергей Шаров написал (цитирую):

"В дискуссии правильно отметили необходимость нормализации частот. Я
породил частотные списки на основе НКРЯ и I-RU и подсчитал коэффициент
правдоподобия (log-likelihood ratio) используя данные частот одиночных
слов как НКРЯ так и моего корпуса интернета:

http://corpus.leeds.ac.uk/serge/frqlist/mudaki-iru.csv
http://corpus.leeds.ac.uk/serge/frqlist/mudaki-rnc.csv

В первой колонке именно коэффициент правдоподобия.

в этих списках есть обман с двух сторон: размеры корпусов одиночных слов
против корпуса для подсчета коллокаций, и время создания корпусов (даже
мой интернет-корпус из 2005 года, как там чуров с навальным оказались -
непонятно). В любом случае занимательно.
Enjoy,
S"

(Ответить) (Уровень выше)