|
December 1st, 2016
08:42 pm - Teaching achievements
|
Comments:
а если посмотреть все 4 базы, получается так
НКРЯ и русская Wikipedia
перемать 0.408 ебеный 0.399 переебывать 0.362 перетака 0.336 едривать 0.299 едри 0.291 кузькин 0.291 чортовый 0.290 жидяра 0.289 хуй 0.279
НКРЯ
перемать 0.493 ебеный 0.475 пиздить 0.465 перетака 0.464 едри 0.439 блядь 0.431 трясця 0.408 ебаный 0.404 распречестный 0.402 ебаться 0.397
Веб-корпус
выебывать 0.802 трахнуть 0.771 трахать 0.764 ебаться 0.739 трахаться 0.697 телка 0.696 дрочить 0.692 ебля 0.677 жопа 0.671 сосать 0.648
Новостной корпус
банкі 0.321 жинақ 0.308 ауытқу 0.307 банктердің 0.301 деңгейлі 0.292 қаулысымен 0.291 несие 0.289 туда 0.289 бағамының 0.288 қордан 0.287
* * *
занятно, что при добавлении Википедии к НКРЯ вылезает слово "жидяра", которого в НКРЯ нет
From: | (Anonymous) |
Date: | December 2nd, 2016 - 01:08 am |
---|
| | | (Link) |
|
в чисто НКРЯ сходство даже выше, чем в википедии просто в top не попало
Пары слов Косинусная близость (НКРЯ) ебать жидяра 0.318
Сравнивать косинусные близости между двумя разными моделями напрямую бессмысленно, они же (модели) не детерминированные. Сравнивать списки ближайших ассоциатов гораздо полезнее.
From: | (Anonymous) |
Date: | December 2nd, 2016 - 04:54 pm |
---|
| | | (Link) |
|
Тут как раз интересно, что в списках ассоциатов для одного слова в разных моделях раличный средний показатель сходства.
Плотность семантического пространства разная, да. Может ничего не значить и быть просто следствием стохастической природы обучения моделей, а может быть системным свойством разных корпусов. Нужно изучать. |
|
|
LJ.Rossia.org |