Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет schegloff ([info]schegloff)
@ 2009-04-14 08:46:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Оцифровка Большого Террора: нужна помощь, скрипт написать
Возможно, эта работа уже проделана, и скрипт можно не писать - тогда дайте ссылочку на результаты. Если же нет, излагаю задачу. В базе данных Мемориала "Жертвы политических репрессий" (CD, или 600М на торрентс.ру) содержатся сведения о 2.7 млн. осужденных к разным мерам наказания и впоследствии реабилитированных по политическим статьям. Данные вносились в базу из различных региональных "Книг памяти" напрямую из архивных материалов, в которых никто единой системы обозначений не придерживался.

В результате в таблице приговоров (prigovor) содержится 229 тысяч вариантов формулировок - например, "10 лет" и "к 10 годам" оказываются разными записями. Никакой статистики на таком разнообразии не построить; нужно свести 229 тысяч вариантов к 100 самым распространенным (99 содержательных и "прочее", например). Вручную этим заниматься не хочется; таким образом, нужно написать небольшую программку-скрипт, конвертирующую произвольные формулировки в обобщенные.

Исходные данные - обычный текстовый файл, 20М, в зипе 3М, писать скрипт можно на любом фриварном языке. По моим оценкам, трудоемкость написания такой программки 10 часов. Самому писать некогда, поэтому ищу помощников. Комментарии по обыкновению скрыты. Для интересующихся подробностями - под катом кусок описания проекта в целом.

А. Создать удобную для статистического анализа базу социологических данных по Большому Террору. Удобную - хотя бы на уровне большой экселовской таблицы, которую можно сортировать по разным рядам, делать промежуточные суммы, выборки и т.д. и т.п. За 1 час поисков ("гугль-тест" на существование) я такой базы в Сети не нашел; боюсь, что ее просто не существует; значит, нужно сделать.

Б. Выложить полученную базу данных в открытый доступ для всех желающих.

В. Провести грамотную пиар-кампанию местонахождения базы и ее способности ответить на некоторые вопросы по Большому Террору (например, соотношение % членов партии среди репрессированных и среди всего населения).

И все, дальше будет уже другой проект.