Записки на обоях - Дистрибутивную семантику в массы

> Recent Entries
> Archive
> Friends
> User Info
> My Website

December 22nd, 2015


Previous Entry Add to Memories Tell A Friend Next Entry
11:35 pm - Дистрибутивную семантику в массы

(28 comments | Leave a comment)

Comments:


From:[info]alex-spd.livejournal.com
Date:December 23rd, 2015 - 09:51 am
(Link)
Это все сионистский заговор!

На слово я "язык":

диалект 0.57763
наречие 0.55314
грамматика 0.53869
иврит 0.53845
фонетика 0.51860
латынь 0.51355
синтаксис 0.50485
идиш 0.50200
фольклор 0.49851
произношение 0.49572

А где же "русский"? ;)
Не вошел в топ.
язык русский 0.46063

Зато литературный язык немного обгоняет матерный. :)
язык литературный 0.28972
язык матерный 0.25394

А что вообще эта цифра значит?
[User Picture]
From:[info]tyumen_kender
Date:December 23rd, 2015 - 01:25 pm
(Link)
В топе существительные же. Впрочем, если ограничить прилагательными, то сербохорватский и лужицкий все равно будут ближе русского в НКРЯ :)

"язык русский 0.46063" - это на новостном корпусе, там "русский" действительно ближайшее прилагательное после "иноязычный" и "языковой".

Цифра значит косинусную близость между векторами соответствующих слов. Там подробно написано в About :)

> Go to Top
LJ.Rossia.org