|
December 22nd, 2015
11:35 pm - Дистрибутивную семантику в массы
|
Comments:
В обучающих корпусах встречаются английские слова (и некоторые довольно часто), это нормально. Можно, конечно, специально их вырезать, но не вижу большого смысла.
Слова не в нормальной форме - это артефакты лемматизации (она не стопроцентно точная). То есть, лемматизатор в конкретном предложении не смог догадаться, какая у этого слова должна быть нормальная форма, и оставил как есть. В итоге получилось как бы ещё одно слово. И оно, конечно, в результате обучения оказалось семантически близким к правильной нормальной форме. В принципе, такого должно быть не очень много, но встречается, да. |
|
|
LJ.Rossia.org |