old_apazhe: А вот интересно, почем

(Читать комментарии) - (Добавить комментарий)

Re: Гы-гы-гы!

the_toad@lj
2004-11-22 07:39 (ссылка)

Вот, а если серьёзно - так этой проблемой-то занимаются. И не первый год. Кстати, в журнале той же correlation (правда, сильно давно) были блестящие подборки квазисинонимов и квазимеждометий (последнее - это, типа, слова, не несущие существенного смысла. Типа на уровне "типа" и "как бы". У неё там в результатах слова "культура", "культурный", "мораль", "моральный" занимали видное место). Фишка в том, что банальный подсчёт двухбуквенных сочетаний - это ни в пизду, ни в Червонну Армию. Лично я к анализу текстов с позиций "смысла" отродясь отношения не имел, но таки могу сказать, что даже с точки зрения компрессии текста дело давно уже зашло сильно далее банальных двухсимвольных сочетаний. Даже там уже давно норовят навострить алгоритмы, которые довольно длинные паттерны пытаются выявить.

Вот. А в данной программе - вы заметили, например, что там знаков препинания нет? Т.е. частотность знаков препинания никак не рассматривается, соответственно, длина предложения - тоже?

А ещё, опять же, возвращаясь к разнице между мной и correlation - она часто предложения со строчных начинает. Я - никогда. Зато и она, и я никогда не пишем "е" вместо "ё" - а данная программа "ё" вообще игнорирует. Ну и чего ожидать-то от подобной "программы, написанной программистом"?

(Ответить) (Уровень выше) (Ветвь дискуссии)

	Re[2]: Гы-гы-гы! ex_ex_apazh@lj 2004-11-22 08:06 (ссылка)
	О, интересные вещи рассказываете. (Ответить) (Уровень выше) (Ветвь дискуссии)

	(подозрительно) the_toad@lj 2004-11-22 08:16 (ссылка)
	...издеваетесь, да?! ;-) (Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: (подозрительно) ex_ex_apazh@lj 2004-11-22 08:41 (ссылка)
	Нет, мне действительно интересно. (Ответить) (Уровень выше) (Ветвь дискуссии)

Re: (подозрительно)

the_toad@lj
2004-11-22 09:20 (ссылка)

Да я какие-то совсем "общие места" рассказываю, да и то крайне сумбурно (и наверняка с ляпами). Но просто мысль о том, что по 512-ти (гм, ШЬРЩ круглые цифры - тоже симптом того, что программа создавалась именно "программистом", а не "экспертом") двухбуквенным сочетаниям так-таки можно и экспертизу провести... ну да, блин, на ком-то он проверил. Ох, бля, и выборки у него были - прям в тыщу авторов и миллион знаков с каждого, а то! Ах, он картинки увидел, ах, ёбтыть! Ах, и картинки оказались разными! Ахуеть! А исчислить эту разницу количественно с ипользованием богатейшего аппарата матстата он пытался? А? Что? Не слышу? Найти барьер по той же количественной разнице, чтобы таки получить возможность достоверно отличить "одного" от "другого", проведя хренову тучу экспериментов - пытался?

ПиздИть-то мы все горазды. Я вот, например, весьма горазд пиздИть, уж кто бы сомневался ;-) Но мне всё-таки хватает ума не выдавать мой пиздёж за конечную истину ;-))) Я свой пиздёж предпочитаю считать чистым образцом жанра ;-)))

(Ответить) (Уровень выше) (Ветвь дискуссии)

	Re[2]: (подозрительно) ex_ex_apazh@lj 2004-11-22 09:28 (ссылка)
	За информацию спасибо, да. (Ответить) (Уровень выше)

Re: (подозрительно)

unrulymind@lj
2004-11-22 21:37 (ссылка)

Ить иж как Вы ловко его на чистую воду-то вывели! Тока беда в том, что данный персонаж свою программку ни за какую "конечную истину" выдать не пытался. А выдавал он ея, як простейший пример частотного анализа. Ну простейший он, пример этот, что уж тут поделать-та? Но общую картиначку, общий принцып, почувствовать таки даёт возможность. Безусловно, анализ этот весьма приблизителен и не даёт ничего, кроме, собственно, частоты употребления в тексте этих самых 512 буквосочетаний. Делать какие-то выводы на основании этого результата... ээ... сложно. Но результат интересен сам по себе. Нет бы расширить тему, да предложить более продвинутый алгоритм, коль скоро тематика общественость заинтересовала, так всё изобличать лезуть.
С кем воюете-та? Лучче б просто расшарили нам данную интересную тему, без всех этих левых наездов, ибо всегда, когда специалист столь яростно защищает свою вотчину от происков неспициялиста, это плохо пахнет.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: (подозрительно) the_toad@lj 2004-11-23 00:23 (ссылка)
	Ну, раз уж нас на экспертизу пробило - так ведь я и не говорил, что он пытается нечто выдать за конечную истину, правда? ;-) Я лишь говорил, что мне хватает ума этого не делать ;-))) (Ответить) (Уровень выше)

	Re: (подозрительно) ex_dr_estet52@lj 2004-11-23 00:10 (ссылка)
	может, напишите формулы и алгоритмы, которые бы были лучше данного двухбуквенного чуда, я бы как-нибудь реализовал это дело самому читать долго, вот записать в виде кода - другое дело (Ответить) (Уровень выше)

	Re: (подозрительно) azatiy@lj 2004-11-22 21:03 (ссылка)
	Да пошукать по словам "контент-анализ" и "экспертные системы"... (Ответить) (Уровень выше)

	Re: Гы-гы-гы! drw@lj 2004-11-23 03:25 (ссылка)
	Что значит "норовят навострить"? Алгоритм LZW используется уже двадцать лет. (Ответить) (Уровень выше)

(Читать комментарии) -