2:09p |
алгоритм подсчета фашистов (RFC) В русскоязычном секторе ЖЖ существуют целые патриотические (фашистские) кластеры, которые довольно быстро растут - число комментариев к постам наиболее популярных идеологов сегодня в разы больше чем год назад. С другой стороны количество русскоязычных блогов тоже растет. Мне, да наверное не только мне, хотелось бы оценить текущий процент фашистов и его динамику. Имея на руках относительно точные данные о проценте фашистов в русском ЖЖ можно было бы делать и социологические экстраполяции на Россию в целом. Вопрос в том, как считать фашистов компьютерным способом. Первая мысль - непосредственно по текстам. Алгоритмически определить фашист человек или нет, анализируя его тексты - очень сложно. Хотя и можно попробовать частотный анализ на список ключевых слов хач, сталин, пидор, жид ..., но результаты будут слишком размыты, да и не все фашисты употребляют эти слова в своих журналах. Я видел православного патриота, который пишет у себя исключительно об истинно русских кулинарных рецептах, но в комментариях солидаризуется с призывами мочить и очищать. Короче говоря, этот способ мне не нравится. Мысль вторая - по сообществам. Фашисты в жж весьма активны и имеют свойство собираться в стайки в трех местах: комментарии к постингам уважаемых фашистов (там где обсуждаются вопросы арийского благоустройства Кондопоги и уеврждаются расстрельные списки и координируются русские марши), флеш-мобы в комментариях к либеральным журналам (Евгения Альбац, Маша Гайдар и тп). Наверное, если начать с блогов наиболее популярных скинхедов, зорроастрийцев и радикальных батюшек и вытащить всех комментаторов, а также людей у которых комментаторы в друзьях, то получится относительно точная картина мира. Ситуация с френдами непростая - считать зафрендивших именно крупного фашиста неправильно - их часто отслеживают крупные либералы, чтобы подпитываться негативной энергией - поэтому я предлагаю считать зафрендивших относительно непопулярных комментаторов в фашистских журналах.
Такой примерно алгоритм. Все очень нечетко, понимаю, но можно было бы и так для начала. Трудно ли написать скрипт, который так анализирует несколько изначальных блогов, список которых более или менее очевиден? |