Записки на обоях - Teaching achievements

> Recent Entries
> Archive
> Friends
> User Info
> Мой Mastodon

December 1st, 2016


Previous Entry Add to Memories Tell A Friend Next Entry
08:42 pm - Teaching achievements

(21 comments | Leave a comment)

Comments:


[User Picture]
From:[info]tiphareth
Date:December 2nd, 2016 - 12:44 am
(Link)
а если посмотреть все 4 базы, получается так


НКРЯ и русская Wikipedia

перемать 0.408
ебеный 0.399
переебывать 0.362
перетака 0.336
едривать 0.299
едри 0.291
кузькин 0.291
чортовый 0.290
жидяра 0.289
хуй 0.279

НКРЯ

перемать 0.493
ебеный 0.475
пиздить 0.465
перетака 0.464
едри 0.439
блядь 0.431
трясця 0.408
ебаный 0.404
распречестный 0.402
ебаться 0.397

Веб-корпус

выебывать 0.802
трахнуть 0.771
трахать 0.764
ебаться 0.739
трахаться 0.697
телка 0.696
дрочить 0.692
ебля 0.677
жопа 0.671
сосать 0.648

Новостной корпус

банкі 0.321
жинақ 0.308
ауытқу 0.307
банктердің 0.301
деңгейлі 0.292
қаулысымен 0.291
несие 0.289
туда 0.289
бағамының 0.288
қордан 0.287

* * *

занятно, что при добавлении Википедии к НКРЯ вылезает слово "жидяра",
которого в НКРЯ нет
From:(Anonymous)
Date:December 2nd, 2016 - 01:08 am
(Link)
в чисто НКРЯ сходство даже выше, чем в википедии
просто в top не попало

Пары слов Косинусная близость
(НКРЯ)
ебать жидяра 0.318
[User Picture]
From:[info]tyumen_kender
Date:December 2nd, 2016 - 04:12 pm
(Link)
Сравнивать косинусные близости между двумя разными моделями напрямую бессмысленно, они же (модели) не детерминированные.
Сравнивать списки ближайших ассоциатов гораздо полезнее.
From:(Anonymous)
Date:December 2nd, 2016 - 04:54 pm
(Link)
Тут как раз интересно, что в списках ассоциатов для одного слова в разных моделях раличный средний показатель сходства.
[User Picture]
From:[info]tyumen_kender
Date:December 2nd, 2016 - 05:10 pm
(Link)
Плотность семантического пространства разная, да.
Может ничего не значить и быть просто следствием стохастической природы обучения моделей, а может быть системным свойством разных корпусов.
Нужно изучать.

> Go to Top
LJ.Rossia.org