Оцифровка Большого Террора: нужна помощь, скрипт написать Возможно, эта работа уже проделана, и скрипт можно не писать - тогда дайте ссылочку на результаты. Если же нет, излагаю задачу. В базе данных Мемориала "Жертвы политических репрессий" (CD, или 600М на торрентс.ру) содержатся сведения о 2.7 млн. осужденных к разным мерам наказания и впоследствии реабилитированных по политическим статьям. Данные вносились в базу из различных региональных "Книг памяти" напрямую из архивных материалов, в которых никто единой системы обозначений не придерживался.
В результате в таблице приговоров (prigovor) содержится
229 тысяч вариантов формулировок - например, "10 лет" и "к 10 годам" оказываются разными записями. Никакой статистики на таком разнообразии не построить; нужно свести 229 тысяч вариантов к 100 самым распространенным (99 содержательных и "прочее", например). Вручную этим заниматься не хочется; таким образом, нужно написать
небольшую программку-скрипт, конвертирующую произвольные формулировки в обобщенные.
Исходные данные - обычный текстовый файл, 20М, в зипе 3М, писать скрипт можно на любом фриварном языке. По моим оценкам, трудоемкость написания такой программки 10 часов. Самому писать некогда, поэтому ищу помощников. Комментарии по обыкновению скрыты. Для интересующихся подробностями - под катом кусок описания проекта в целом.
( ОБТ )