|
January 12th, 2016
tyumen_kender | 06:32 pm В обучающих корпусах встречаются английские слова (и некоторые довольно часто), это нормально. Можно, конечно, специально их вырезать, но не вижу большого смысла.
Слова не в нормальной форме - это артефакты лемматизации (она не стопроцентно точная). То есть, лемматизатор в конкретном предложении не смог догадаться, какая у этого слова должна быть нормальная форма, и оставил как есть. В итоге получилось как бы ещё одно слово. И оно, конечно, в результате обучения оказалось семантически близким к правильной нормальной форме. В принципе, такого должно быть не очень много, но встречается, да.
|
Reply
|
|
|
LJ.Rossia.org |