schegloff's Journal
 
[Most Recent Entries] [Calendar View] [Friends View]

Saturday, April 18th, 2009

    Time Event
    11:46a
    Оцифровка Большого Террора: ищем алгоритм (полу)автоматической классификации
    Портативный прибор, как известно, который с ручкой, полупортативный - с двумя ручками. Так и алгоритмы - у автоматических классификаторов надо потом ручками результаты переделывать, а полуавтоматические позволяют заниматься этим уже в процессе работы алгоритма. Но хватит лирики, перейдем к делу. Вчера я без особой надежды на успех попросил у френдов помощи в классификации таблицы приговоров по политическим делам в СССР. Неожиданно для меня самого завязалась любопытная дискуссия, заставившая углубиться в проблему. Так что давайте углубляться.

    1. Таблица 229001 вариантов приговоров и таблица частот встречаемости этих вариантов в 2.7 млн. записей о жертвах политического террора лежат здесь, формат - phpMyAdmin "экпорт CSV для Excel".

    2. Выглядят приговоры примерно так (случайные 15):
    "227843"; "к высылке в Зап.-Сиб. кр. сроком на 3 г. совместно с семьей."
    "21740"; "спецпоселение: Омская обл. 1941-04.04.1955 (умерла)"
    "83278"; "5 лет ИТЛ, отбыв.: Унжлаг, освоб. 07.01.42"
    "6279"; "раскулачена - Кемеровская обл., Анжеро-Судженск, ум. на с/п 21.05.1942"
    "24781"; "спецпоселение, снят 03.03.1950"
    "96027"; "7 лет ИТЛ, 3 года п/п, конфискация имущества, отбыв.: Лаготдел.№ 4, освоб. 25.02.1950"
    "101493"; "к ссылке с семьей на 3 года."
    "139850"; "лишена избирательных прав, Восстановлена 11.12.1933 года"
    "190372"; "8 г. лишения свободы. Умер в Вятлаге 30.05.1940"
    "65156"; "к 5 годам лишения свободы в концлагере с применением принудительных работ, амнистирован."
    "87544"; "10 лет ИТЛ, освоб. 11.11.1944"
    "145000"; "к 5 годам ИТЛ. Определением Военной Коллегии Верховного Суда СССР 04.02.36 дело возвращено на дополнительное расследование . Военным Трибуналом Тихоокеанского бассейна 13.03.36 дело прекращено, из-под стражи освобожден."
    "26192"; "спецпоселение, снят 01.09.1954"
    "55948"; "\"Забродина подвергнуть лишению свободы в ИТЛ сроком на 10 лет, с поражением в правах по п.п.\"а, б, в\"ст.31 УК РСФСР сроком на 5 лет с конфискацией всего лично ему принадлежащее имущество, с зачетом предварительного заключения с 12.11.1944 г.\""
    "177540"; "Умер 15.3.33 во время следствия, в больнице с.Кривоозерки."

    3. Обрабатывать вручную 229000 строк - заведомо неподъемное дело; поэтому нужен скрипт или программа, хоть как-то автоматизирующая классификацию. Дальше пойдет речь о возможных алгоритмических решениях для такой программы.

    4. Первое, что приходит в голову - использовать нечеткое сравнение строк. Например, сравнивать "10 лет" и "подвергнуть лишению свободы сроком на 10 лет". Но это может сработать в том случае, если мы уже знаем, что "10 лет" - значимый термин (в отличие от "больницы с.Кривоозерки"). А как составить список самих значимых терминов? Алгоритм должен помочь прежде всего в этом!

    5. Добывать значимые термины можно исходя из предположения, что в коротких записях (1-2 слова) скорее используются они, нежели всякие там "тихоокеанские бассейны". Таким образом, можно составить словари 1-словных и 2-словных формулировок, а затем проверить, насколько часто найденные термины встречаются в общем массиве. Пока что до конца эта идея не реализована, равно как и прочие.

    Что хочется получить в результате. Программу на языке, позволяющем запускать исходники на локальной машине (питон, джава, перл...), которая делает вот что:

    1) первым проходом формирует файл терминов-гипотез, примерно такого вида:
    10, лет
    10, ИТЛ
    10, лишению, свободы
    10, годам ...

    2) позволяет назначить каждой связке терминов общий ("обобщение"), например так:
    10, лишению, свободы = 10 лет
    10, ИТЛ = 10 лет

    3) после ручной правки файла терминов - осуществляет сопоставление каждой строки с одним или более обобщением, и выводит спорные случаи (когда строка либо ни под одно обобщение не подпадает, либо подпадает больше чем под одно).

    Итерациями 2-3 можно довести файл гипотез до приемлемого качества обобщений, и после чего сделать его достоянием общества.

    Ну что, двигаемся дальше?
    11:46a
    Власть всегда достается "этим", или К вопросу об ордене меченосцев
    Про "этих", надеюсь, все читали, объяснять ничего не надо. В последние дни актуализировался вопрос о качестве "элиты" (я пока что не ученый, а только учусь, уверенность, с которой [info]salery@lj эту самую "элиту" выделяет по формальным признакам - послужному списку во властных структурах - мне недоступна, поэтому ставлю кавычки). Насчет российской "элиты", конечно же, прочь сомнения, но и с американской тоже вон что оказалось:

    На прямой вопрос, что с интеллектуальной элитой - экономистами, финансистами, социологами и аппаратом безопасности, профессор прямо ответил что таковой в стране нет, есть просто люди с чудесными степенями.

    Таким образом, "отрицательный отбор" давно уже работает в мировом масштабе (о чем я, собственно, и пишу с перерывами последние годы), и работает строго в одном направлении. К принятию сколько-нибудь общественно-значимых решений в современном обществе (любом обществе, а не только рашкинском и пиндосском!) допускаются - не чьей-то злой волей, а самой логикой функционирования властных структур, - только специальные люди. Не "элита", но "с чудесными степенями"; не Мвен Масы, но эти.

    Причина, по которой Власть достается в конечном счете именно "этим", найдена еще в прошлом веке, успешно популяризирована Паркинсоном и Питером, но до сих пор фигурирует в российском общественном сознании в сильно искаженном виде. "Политика - грязное дело...", скажет Вам любой встречный, а затем добавит - "вся надежда на государство!". Между тем, любая крупная корпорация - в том числе и современный госаппарат - представляет собой такую же арену политической борьбы, как и окружение средневековых монархов. В крупных корпорациях реальные последствия принятых конкретными людьми решений наступают очень нескоро, а вот мнения начальства на их счет формируются практически мгновенно. В результате рост статуса отдельного представителя элиты обеспечивается не реальными результатами работы, а умением производить благоприятное впечатление. То есть - той самой политикой (обещать всем все, лишь бы проголосовали), которая и есть "грязное дело".

    Любой человек, для которого реальный результат хоть что-то значит (по сравнению с производимым впечатлением), никаких шансов на продвижение во власти не имеет. Крупные корпорации обладают достаточными ресурсами, чтобы достигнутть нужных результатов независимо от качества управления, а само это некачественное управление объявить идеальным и успешным - результат-то достигнут. А вот попытки отдельных представителей управления ориентироваться на результат, а не на оценку вышестоящих, приводит к внутренним конфликтам (кто это тут такой умный выискался?) и даже в случае успеха будут охарактеризованы как "раскачивание лодки". Крупная корпорация - своего рода динозавр, отлично управляющийся спинным мозгом, но слишком медлительный, чтобы позволить себе головной.

    Поскольку с таким устройством крупных корпораций человечество благополучно дожило до 21 века, про него можно сказать ровно то же самое, что и про "демократию": скверная система, но все остальные еще хуже. Попытка пересадить головной мозг динозавру закончится плохо и для динозавра, и для мозга.

    Ну а теперь читаем про новый российский орден меченосцев. Как по-вашему, наличие Высокой Цели у группы единомышленников, проникшей во властные структуры - это конкурентное преимущество или серьезный недостаток?

    << Previous Day 2009/04/18
    [Calendar]
    Next Day >>

Типа сайт Щеглова   About LJ.Rossia.org