Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2009-08-18 18:08:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Как сделать?
Почти все источники в сети представляют собой ленты. Ленты новостей, календарные и пр. Вот ЖЖ тоже представляет собой ленту. С ней всё понятно, но известное дело - ушедшее в прошлое исчезает из внимания. Пост двухгодичной давности почти недоступен. Да, понятно - есть поиск. Им мало кто пользуется. Можно сказать: кому надо, тот найдёт. - Сказать можно всё что угодно. Однако это не ответ, а отмазка - ответом будет совокупность средств, представляющих в удобной для читателя форме большой материал, представленный в виде ленты.

Известно - пробуют издавать из Живжурналов книги. Как кажется - не очень успешно. По крайней мере это не панацея - далеко не всё удобно представить бумажным кирпичом. Можно делать оглавление - это тоже будет очень-очень длинная лента названий. Можно делать иерархический каталог. Там невнятная для читателя логика. Можно делать облако тэгов. Его понятность целиком зависит от понятности для читателя ключевых слов, годится только для тем новостного потока - когда в обществе имеется согласие, что как называть. Шаг в сторону, к нетривиальному знанию - всё, провал, это называется одним образом, а человек и не знает, что то, что его интересует, здесь называтся вот так. Не говоря о том, что тэги - это всего лишь одноуровневая иерархия, а значит их немного, или они нечитаемы.

Между тем существует интерес просвещенческого, образовательного характера. Человек интересуется опровержением законов Ньютона и загадкой "Пионеров", причинами направленности биологической эволюции и степенью представленности в сети разных наук и областей знания. Одно можно поискать по ключевому слову, но не так уж просто - надо подумать, как лучше построить запрос. А другое - о мере представленности в сети - вообще не ловится. Нужны люди, досконально знающие _всю_ литературу по теме, и что из нее представлено в сети, и дающие заключение - в сети есть ... 0.5? 30? 98% источников по теме.

И вот такой, довольно интеерсный и редкий материал лежит в сети - с оценками представленности - но как сделать это ушедшее в прошлое - доступным и теперь? Нужен, наверное, какой-то интерфейс. Есть ведь люди. занимающиеся этим профессионально - и не обязательно столь ограниченные, чтобы отвечать так, как на такие вещи отвечают в коммерческих разработках ("это слишком сложно, это не будут покупать, в сети 2% пользоватаелей, кому это надо - не имеет смысла для них огород городить"). Если без этих смешных - если серьезно - коммерческих отмазок, а на самом деле подумать - что можно тут предложить для тысячи десятков тысяч людей, которых такие вещи интересуют.

Пришла в голову смутная мысль. Почти все такие интерфейсы-указатели работают с повышением формализации и понижением содержательности, то есть богатым содержательным текстам ставится в соответствие формальная простая система - каталог, указатель, метка и пр. Идет сильнейшее вырождение смысла - потому и трудно искать-то. Потому в одном смысле искать легко, а в другом трудно. Может быть, делать не столь вырожденные системы? Например, краткий текст, нечто вроде резюме, но не формальный, целостный текст, почти каждая фраза которого служит отсылкой на текст или совокупность текстов в ленте. Сам такой текст содержательно и внятно объясняет, что говорится во всей совокупности подчиненных текстов, и является одновременно оглавлением - своеобразным, совмещенным с содержательным рассказом.

Таких текстов мало того что может быть несколько - довольно много; они еще могут дублироваться. То есть любой (?) читатель, взяв ленту, может сделать такой рассказ и по технологии вики (примерно) написать свой текст-обзор. Они могут различаться совокупностью текстов, на которые отсылают их ссылки, но - в пределе - на одну совокупность текстов может быть несколько "рассказов" - обрисовывающих дело с разных сторон в разных словах.

Да, это интеллектоемкая технология, такие тексты надо писать и их надо с некоторым усилием читать - это не бездумные операции. Но - может быть - для тех немногих процентов людей, кому все это надо, такие действия и не будут против шерсти.

Или что-то другое придумать? какие есть технологии внятного представления большого текстового материала?



1-я страница из 2
<<[1] [2] >>

(Добавить комментарий)


[info]u_lex@lj
2009-08-18 11:33 (ссылка)
Ждем Web 3.0

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 11:36 (ссылка)
Расскажете, как это относится к вопросу?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]u_lex@lj
2009-08-18 11:43 (ссылка)
В Web 3.0 ожидаются технологии, позволяющие понимать содержание. А когда машина понимает, то и визуализировать материал проще)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 11:46 (ссылка)
Серьезно? Технологии в компе, чтобы понимал содержание? Вы знаете, надо только название сменить. Я бы пока предложил что-то вроде "веб 10 в шестьдесят второй степени".

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]u_lex@lj, 2009-08-18 12:02:21
(без темы) - [info]photographer@lj, 2009-08-19 17:43:13
(без темы) - [info]ivanov_petrov@lj, 2009-08-20 01:51:19
(без темы) - [info]photographer@lj, 2009-08-20 01:56:35

[info]amarao_san@lj
2009-08-18 11:42 (ссылка)
никаких технологий нет. Просто потому, что работа с текстом, по сути, это работа со смыслом текста (буквы никого не интересуют). А "думать" компьютеры не умеют.

Так что все методы работы с информацией произвольного содержания не связаны с нею самой, а только с побочными характеристиками.

А писать в стиле SQL'я (в котором компьютеры хорошо умеют искать) человек почему-то не хочет.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 11:45 (ссылка)
Я спрашиваю именно не о компьютерах. Я как раз о содержательных решениях.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]amarao_san@lj
2009-08-18 11:56 (ссылка)
До тех пор, пока человек не может сформулировать "науку о смыслах", до этого момента не будет никаких содержательных решений. А как только наука будет, под неё можно будет приспособить компьютер.

Так что компьютер (точнее, ИКС) - лакмусовая бумажка.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]u_lex@lj, 2009-08-18 11:58:35
(без темы) - [info]amarao_san@lj, 2009-08-18 12:36:07
(без темы) - [info]u_lex@lj, 2009-08-18 12:43:49
Семён Семёнтика - [info]albiel@lj, 2009-08-18 13:13:43
Re: Семён Семёнтика - [info]u_lex@lj, 2009-08-18 13:26:16
(без темы) - [info]amarao_san@lj, 2009-08-18 13:45:15
(без темы) - [info]u_lex@lj, 2009-08-18 14:05:21
(без темы) - [info]amarao_san@lj, 2009-08-18 14:18:27
(без темы) - [info]ex_rivelt275@lj, 2009-08-18 14:16:21
здесь и сейчас - знаменитый делишез
[info]dmarsentev@lj
2009-08-18 11:58 (ссылка)
http://del.icio.us

Встречаете интересный сайт и метите тегами любыми,
ВаШИМИ тегами из ВАШЕГО ассоциативного ряда.

А по-умному - трудно.

(Ответить) (Ветвь дискуссии)

Re: здесь и сейчас - знаменитый делишез
[info]ivanov_petrov@lj
2009-08-18 13:22 (ссылка)
Это не то. Можно долго говорить, почему - и что моими, и что забуду и пр. Но зачем все это говорить? Ясно. что не то. И даже ясно, почему не то - потому что предложение тупое. Машинное. Вложено не так много ума, но много "техники". Я же спрашиваю именно о технолгии, про которую подумать надо.

(Ответить) (Уровень выше)


[info]emdrone@lj
2009-08-18 12:08 (ссылка)
1. Ну, с ЖЖ проще. Я когда-то сделал скрипт-читалку, которая кладет автоматически всё что я каждый день читаю и мне понравилось на мой компьютер. Места все эти посты-обсуждения занимают по меркам сегодняшних жестких дисков (да и даже каких-нибудь DVD, и даже CD) поразительно мало. Можно сохранить ВСЁ.

Поиск по ним организуется индексированием программой-искалкой по локальному компьютеру. Поскольку по сети ей ходить не надо, всё происходит достаточно быстро. Запросы и ответы мгновенны. Можно держать в индексе все книги, страницы, ЖЖ-посты - все тексты.

2. Как находить "по темам", в Интернете или на локальной машине.

Один из (примитивных) методов, которые сейчас внедрены нассово являются tags, "бирки" или "ярлыки", вроде библиотечных разделов по темам.
Они плохи тем, что разные люди одно и то же обозначают разными словами, и что бирки маркируют "вообще", а хочется искать "по содержанию".

3. Тогда есть ряд способов ПОСЧИТАТЬ ОПРЕДЕЛЕННЫЕ МЕТРИКИ текста-образца. Например, мне понравилась некая научная или научно-популярная статья. Хочу подобные.

Я обычно считаю примитивным скриптом примитивную штуку, которая даёт мне список неких слов. Они взяты из текста-образца, но они "неочевидны" - т.е. человек, пытающийся искать в поисковике набьёт как правило иной набор.

Однако этот странный набор удивительно хорошо выделяет "подобное", если его вбить в "Google" или в Яндекс. Моя функция плоховато выберет разговорную речь, вроде дискуссии в ЖЖ, но хорошо работает на "умных", занудных, книжных и т.д. текстах.
Да, я применяю/применял этот скрипт к текстам на английском

Смысл этой самой примитивной функции от текста - в английском следует сделать выборку "самых частых длинных слов" текста (можно параметрами несколько подогнать, насколько длинных, затем брать где-то десяток сверху)

Затем вбить их в Гугл - и вы получите похожие не только по смыслу, но и по стилю ответы.
Результат заметно отличается от просто поиска "вручную" - человеку в голову как правило не приходят те слова, которые механически скрипт выделяет как "характерные"

(Ответить) (Ветвь дискуссии)

веб-сервис
[info]dmarsentev@lj
2009-08-18 12:22 (ссылка)
И вы ещё не сделали из него маленький веб-сервис?!!!
В одно окошечко положил текст, нажал на кнопочку,
в другом окошечке получил выдачу нестандартных ключевых слов.

(Ответить) (Уровень выше)

P.S. Data mining and search engine design
[info]emdrone@lj
2009-08-18 12:27 (ссылка)
P.S. Но хорошо известных функций, которые можно механически посчитать от текста, известно несколько штук.

Вот неполный список того, что уже используется вовсю:

    Можно считать "н-граммы", сочетания слов (или слогов, или букв), они дадут некие характеристики текста.

    Можно считать разного рода параметры марковских цепочек, они "предсказывают" что в тексте появится дальше.

    Можно считать частотность. Тут, правда, чем текст длиннее, тем ближе будешь к общеязыковым средним. Поэтому имеет смысл выделять из списка самых частых "отклонения" от языково-среднего (посчитанного по "корпусу" большого объема; сегодня это очень легко из-за существования Интернета и может быть сделано любым отдельным человеком на домашней машине).

    Можно скачать себе копию Википедии, и при поисках по теме брать функции от текстов Википедии на данную тему.
    Она, в целом, вводит минимум лексики заданой темы, и выборка статей тоже может быть автоматизирована (статьи включают гиперссылки на родственные, можно автоматически брать 1-2 поколения от заглавной заданной вами темы).

    Можно, зная что человеческое знание и Интернет, и Википедия представляют собой степенной граф ("малый мир"), пытаться пользоваться его характеристиками.


В университетах эти - я перечислил простые и интуитивно понятные - как и более технические, менее понятные "здравым смыслом" методы изучают в курсах по "data mining" и/или в курсах связанных с построением поисковых машин для Интернета или больших объемов данных

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: P.S. Data mining and search engine design
[info]ivanov_petrov@lj
2009-08-18 13:20 (ссылка)
да, это очень интересно и наверняка кому-нибудь надо. Но это не то, о чем я спросил.

(Ответить) (Уровень выше)


[info]ex_rivelt275@lj
2009-08-18 14:25 (ссылка)
>Один из (примитивных) методов, которые сейчас внедрены нассово являются tags, "бирки" или "ярлыки", вроде библиотечных разделов по темам.
Они плохи тем, что разные люди одно и то же обозначают разными словами, и что бирки маркируют "вообще", а хочется искать "по содержанию".


Первое отчасти лечится иерархическими тегами: то бишь и "котята", и "котятки" будут подчиннены тэгу "кошки" (возможно, не непосредственно). Недостаток — иерархию тэгов ещё и продумать надо, то бишь это работа скорее ручная, нежели автоматическая.

(Ответить) (Уровень выше)


[info]ru_teacher@lj
2009-08-18 12:22 (ссылка)
Очень верно подмечено.
Проблема, да. :(

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:22 (ссылка)
вот

(Ответить) (Уровень выше)


[info]lugermaxotto@lj
2009-08-18 12:22 (ссылка)
>это не будут покупать, в сети 2% пользоватаелей, кому это надо

Нда. Это- позиция изрядно зажравшегося манагера- речь, ясное дело, не о Вас. Такое количество возможных покупателей должно позволить отбить вложения и получить прибыль- а что не самую большую, так дело напрочь житейское :)

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:23 (ссылка)
Я это не раз слышал своими ушами от... ээ... манагеров. И гораздо чаще читал.

(Ответить) (Уровень выше)


[info]klyw@lj
2009-08-18 13:29 (ссылка)
Истоки подобной проблемы можно увидеть в любой библиотеке. Поиск необходимого разветвлен до бесконечности, чем уже специализация - тем он (поиск) продуктивнее. Объем накопленного знания (или попыток узнать что либо) огромен, и еще не все это переведено в цифру.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:32 (ссылка)
Вы говорите о иерархическом каталоге. Я сказал, чем он неудобен.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]klyw@lj
2009-08-18 15:20 (ссылка)
Но другой способ всегда будет подразумевать еще более множественные варианты. Некоторые вполне могут срабатывать, но количество возможных возрастает (с переходом в новую иерархичность) в новую бесконечность. Если честно пока не представляю на практике. Для себя каждый пока придумывает как удобнее, а вот унификация...

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-18 15:36:01
(без темы) - [info]klyw@lj, 2009-08-18 16:06:20
(без темы) - [info]klyw@lj, 2009-08-19 00:43:26
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 01:29:17

[info]kaktus_okamenel@lj
2009-08-18 13:32 (ссылка)
Подметив интерес просвещенческого, образовательного характера большие торговые порталы забили к сеже словники эмциклопедий, и поисковики при запросе по одному слову тут же их подают. Найти нужное среди нескольких миллионов страниц снова стало невозможным, если не специализироваться на составлени сложного поиска. Стремление продать убивает стремление узнать.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:35 (ссылка)
О чем и речь. Делают формальные, то есть редуцированные по смыслу поисковые средства. Облака тэгов. как только они становятся чуть более удачными. их начинают копировать - потому что они дешевые. не содержательные. их легко сфальшивить. Взял да и вбил в свой сайт такое слово, поисковик будет выдавать. Я почему и говорю о малом падении смысла - о написании самостоятельных текстов, обзоров, если угодно. Но это лишь смутная мысль - мне бы казалось, что люди. профессионально этим занимающиеся и думающие не 15 минут на эту тему, а годами - должна придумать много глубже.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kaktus_okamenel@lj
2009-08-18 15:38 (ссылка)
Протиж лома нет приема окромя другого лома.
Пока за каждый переход по клику платят денежку, способов заманить на клик будет все больше все более изощренных. Ваши интересы архитекторам сети зарабатывающей на рекламе при этом совершенно не интересны.

(Ответить) (Уровень выше)


[info]ivanstor@lj
2009-08-18 13:50 (ссылка)
У меня работает следующая связка:
1) Расширение Scrapbook для Firefox. Все, хоть сколь нибудь интересное, я сохраняю на диск. Для некоторых записей прописываю комментарий, фактически то, о чем Вы пишите, очень сжатое резюме. Потом можно настроить поисковик, чтобы искал только по комментариям и заголовкам.
Насохранял около 1 млн. записей.
2) Yandex server как локальный поисковик.
3) Набор скриптов на Perl и Python для сортировки записей
Так как в качестве первичного фильтра, сохранять/не сохранять, выступаю я сам, релевантность поиска получается хорошая.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:57 (ссылка)
Вот. Комментарий, очень сжатое резюме. Понятное дело, что по нему тоже можно искать. Но важно именно это, составление таких содержательных резюме.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanstor@lj
2009-08-18 15:19 (ссылка)
Без резюме, поиском по основному тексту, тоже неплохо работает.
За счет первичного отбора.
Ну и я, глядя на название журнала или сайта среди найденных по запросу, примерно представляю чего ждать.

(Ответить) (Уровень выше)


[info]ivanstor@lj
2009-08-18 13:52 (ссылка)
Да, вообще-то то, о чем Вы говорите, вызывает ассоциации с Data Mining (http://www.google.com/search?q=Data+Mining&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ru:official&client=firefox-a)

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:58 (ссылка)
спасибо. посмотрю

(Ответить) (Уровень выше)


[info]bars_of_cage@lj
2009-08-18 13:54 (ссылка)
а в содержательном научном тексте тоже есть определенная степень неочевидности, как в хорошей музыке? исходные гармонии все они, вот. А тут уже необычные сочетания. Вот бы эту степень формализовать. И золотое сечение высчитать. То есть, индекс 3 - это уже фоменко (или скрябин). 1 - школьный учебник, во поле березка. а вот 1,27 - это самый фронт научной мысли!

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 13:59 (ссылка)
Формализовать, насколько "умный" текст? Хм. Знать бы прикуп...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]bars_of_cage@lj
2009-08-18 14:08 (ссылка)
а пока что лучший тэг - это имя автора

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-18 14:20:42
(без темы) - [info]bars_of_cage@lj, 2009-08-18 16:04:57
(без темы) - [info]ivanov_petrov@lj, 2009-08-18 16:51:06
(без темы) - [info]cypo4ka@lj, 2009-08-19 03:52:15
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 04:12:00
(без темы) - [info]cypo4ka@lj, 2009-08-19 04:46:35
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 04:53:22
(без темы) - [info]cypo4ka@lj, 2009-08-19 05:50:32
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 05:58:59
(без темы) - [info]cypo4ka@lj, 2009-08-19 06:57:44
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 07:08:49
(без темы) - [info]cypo4ka@lj, 2009-08-19 08:52:51

[info]gouriev@lj
2009-08-18 16:46 (ссылка)
Если из того, что мы можем сами или с помощью разарботчиков ЖЖ, то

-Календарный список,
-алфавитный список заголовков (если были заголовки),
-алфавитный список тегов (если ставились теги),

Если - помечтаем - добавить современных средств
сторонних разработчиков, то

-иерархический классификатор тем (определенных автоматически),
-список собственных имен и устойчивых терминов (включая словосочетания),
с указанием, в каких текстах они упоминаются...

Если все это будет одновременно, как-то можно будет найти.

---
Если про "большую науку", то вот например:
http://msado.livejournal.com/1738249.html
(и критика этого http://plakhov.livejournal.com/?skip=40 , на мой вкус -
не вполне корректная).
Я слышал (но не очень прислушивался :( ) и о других работах на близкие темы
(одна из них - моего бывшего ученика), и вообще это сейчас как-бы мейнстрим.

---
Кстати, чем это иерархия неудобна ?
Пока это единственный способ, придуманный человечеством,
для "свертывания" информации, представления в компактной
форме результатов кластеризации или классификации.

Обычная иерархия задает некий единственный способ классификации,
и это действительно неудобно. Но это, конечно, ошибка. Должны
сосуществовать несколько иерархий - каждая со своим принципом
классификации. Я всегда это "чувствовал", но потом оказалось,
на эту тему есть даже целая наука

http://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D1%81%D0%B5%D1%82%D0%BD%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F

и даже международные стандарты http://en.wikipedia.org/wiki/ISO/IEC_11179

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 16:58 (ссылка)
Мне вот что не нравится. Вы начинаете говорить от наличных технических средств, и быстро все заканчивается - вот что есть, и всё. Грубо говоря, это мне и так понятно. Я ставлю вопрос противоположной направленности: что хотелось бы иметь? Техсредства - это потом, когда придумается. Пока не о этих, простите, глупостях речь - ну конечно ясно. что можно сделать алфавитный список, кому эта дрянь нужна... Я про то. чего б было удобно

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-08-18 17:47 (ссылка)
> Или что-то другое придумать? какие есть технологии внятного представления большого текстового материала?

Я пытался честно ответить на вопрос, исходя из возможного сегодня.
То ли в силу профессии, то ли из соображений сбережения ресурсов
я отбирал средства, позволяющие автоматизировать процесс.

Возможно, Ваша цель - другая и Ваш вопрос - не об этом. А о чем ?
"Что хотелось бы иметь" для какой цели ?

> Почти все такие интерфейсы-указатели работают с повышением формализации и понижением содержательности
> Идет сильнейшее вырождение смысла - потому и трудно искать-то.

Мне представляется очевидным, что эти эффекты связаны не с примитивностью
автоматизированных средств, а с самой задачей обозримого представления
большого количества сведений. (То же самое происходит при объединении
информации в донесениях в военной или хозяйственной системах, хотя никакие
автоматизированные технологии при этом не используются (не обязательно
используются)).

Полную информацию о всем корпусе текстов несут только сами тексты.
Любая аннотация - это пропуск многих деталей.
Ручная работа - качественней, автоматизированная - менее затратна...
А будет ли это иметь форму каталога, кратких аннотаций (текстов о текстах),
или чего-то еще - это "еще один следующий вопрос".
Я убежден, что только сочетание разных форм даст приемлемый результат.

Могу еще предложить прямые ссылки между аннотациями и между самими текстами
(как-бы наложенные позднее примечания) - дополнительный способ навигации по
дополнительно осознанным ассоциациям.

Могу еще помечтать об алгоритме автоматического установления таких
дополнительных ссылок...

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 01:10:23
(без темы) - [info]gouriev@lj, 2009-08-19 12:08:26
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 12:23:56
(без темы) - [info]gouriev@lj, 2009-08-19 12:58:19
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 13:25:25
(без темы) - [info]gouriev@lj, 2009-08-19 13:44:07
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 14:03:29
(без темы) - [info]gouriev@lj, 2009-08-19 15:30:06
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 16:03:19
(без темы) - [info]gouriev@lj, 2009-08-19 16:47:33
(без темы) - [info]gouriev@lj, 2009-08-19 14:00:01
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 14:06:34
(без темы) - [info]gouriev@lj, 2009-08-19 15:36:26
(без темы) - [info]ivanov_petrov@lj, 2009-08-19 16:04:59
(без темы) - [info]gouriev@lj, 2009-08-19 16:45:10

[info]gouriev@lj
2009-08-18 16:58 (ссылка)
Насчет кратких текстов (аннотаций), то
вручную это дорого и долго, а автоматически -
нет еще (или вообще?) такого ума у автоматов.

---
У одного моего ученика была такая работа:
тексты классифицируются по "смысловой" близости
(критерием является близость словарного состава,
что конечно грубо, но в первом приближении работает,
а во втором можно заменить чем-либо более умным)

а затем выстраиваются некоторым образом в иерархию,
так что "наиболее общий" в каком-то смысле текст
является узлом иерархии, а "более частные" (в том же смысле :) )
ему подчинены. В таком случае роль "аннотации" играет
один из текстов. Она конечно, не краткая, но необязательно
ведь читать до конца

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 17:01 (ссылка)
дорого и долго

это не важно. Видите ли, это категории количественные. а потому сравнимые. Если то. что мне надо - актово, а прочее - мне не надо, то не дорого и не долго. У Вас же нет средств сделать то же самое, но дешевле и быстрее? Чем вручную? Тогда не дорого. Если в самом деле надо. Вы же по клавишам руками бьете? Это же долго и неудобно? Но просто иначе нельзя, иначе будет не ваш текст, а машинная чушь - и Вы берете на себя труд набивать свой текст вручную. Оказывается - очень даже можете себе позволить такую дорогую и долгую операцию

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-08-18 17:49 (ссылка)
Для меня дорого и долго - это не относительные категории (для меня).
Если настолько дорого или долго, что результатом в разумные сроки не
удастся воспользоваться, то это уже абсолютный приговор.

Ну, если позарез надо и Вы настаиваете, то вперед!

Можно представить себе некоторые особенности.
1) Во-первых, это исследование. Надо все-таки понять (или вспомнить),
о чем были эти тексты, что в них главное, а что - второстепенное.
Здесь уже необходимо вкрадывается некоторый субъективизм.
2) Во-вторых, это построение "модели" (или моделей), выявляющих
(или приписывающих) группам текстов некоторую связывающую их
логику. И здесь тоже необходимо проступает отпечаток личности.
Так что про аннотации от разных авторов - это была очень ценная мысль.
3) В-третьих, сочинение текстов о текстах. И, мне кажется, не так-то
просто будет удержаться в рамках аннотирования, не пытаться развивать
складывающиеся модели или продолжать старые дискуссии... Комплект
аннотаций рискует превратиться в самостоятельное произведение.
Может, это и хорошо ?

Это безусловно, большая работа.
Я бы за такую не взялся.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 01:13:02
(без темы) - [info]gouriev@lj, 2009-08-19 11:08:51

[info]drandrandr@lj
2009-08-18 17:37 (ссылка)
Наверное, лучше википедии ничего нет (при всех ее недостатках). (Про те же "Пионеры" - там вкратце главное было написано, вроде без вранья.)
В смысле - только ручная обработка "контента", в вольной форме.
Кто ей должен заниматься? Может, организовать какую-нибудь особую службу (портал?) такого же, как в википедии, типа - для отслеживания и фиксации всего полезного в сети? Потом можно будет везде в уместных местах самим авторам ставить яркую кнопочку-ссылку на эту службу (для сообщения туда о ценности контента): "Если содержание этого текста было Вам полезно и Вы предполагаете, что оно будет полезно кому-то еще - нажмите" - и там, на портале, уже вручную обрабатывать на все лады (делать тэги, реферировать, давать ссылку, целиком уволакивать...)
Или это и будет тот самый "интерфейс", о котором Вы написали?

Мне лично это представляется чем-то вроде "RSS в обратную сторону".

Только, блин, начнутся же "накрутки"...

Кстати (?), недавно стала интенсивно развиваться новая модная рекламная хрень: "SEO-копирайтинг" - это когда наемные копирайтеры пишут "контент" для создаваемых коммерческих сайтов, исходно "оптимизируя" весь текст под поисковые запросы.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 01:21 (ссылка)
ключевое слово в Вашем ответе - "в вольной форме".
То есть Вы оставляете вопрос без ответа, мол - авторы что-нибудь придумают. Я же спрашиваю об этом - что можно придумать на этот счет. Так что мой вопрос на ином уровне. чем ответ.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]drandrandr@lj
2009-08-19 04:55 (ссылка)
А, методы реферирования! (Надеюсь, не автоматического.) Не понял, извините.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 04:59:02
(без темы) - [info]drandrandr@lj, 2009-08-19 05:28:20

[info]a_p@lj
2009-08-18 19:00 (ссылка)
вроде этого (http://www.miningco.com/)?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 01:24 (ссылка)
Не уверен. Может быть, я не понял. Смотрите, мне показалось, что это специально написанные тексты для решения определенных образовательных задач. Это совсем другая штука. Мой вопрос был - вот есть множество текстов, интеерсных, как представить их обзор и понимание, где о чем говорится? а Ваш пример - мол. мы можем в помощь детям сделать портал, куда напишем начальные сведения об истории 19 века и строении сердца. Да, написать учебник или образовательные тексты можно. конечно, и можно это снабдить указателем, но это несколько иная задача

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]a_p@lj
2009-08-19 02:38 (ссылка)
сейчас я посмотрел повнимательнее, и да - оно таки выглядит, как вы написали в комменте. Конфуз произошёл от того, что в самом начале этого проекта (называвшегося about.com) заявленная цель соответствовала тому, о чём вы написали в посте. Не пошло, выходит.

(они писали о том, что у них "поисковик", но такой, где выдача определяется не несемантической компьютерной обработкой текстов, а специально нанятыми людьми-экспертами из множества разных областей, которые реферируют "всё", достойное этого в Сети. А это, мне показалось, уже ближе к вашему запросу).

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 02:55:28
(без темы) - [info]a_p@lj, 2009-08-19 03:10:39

[info]anhinga_anhinga@lj
2009-08-18 22:22 (ссылка)
Я хочу попробовать мысленный эксперимент, возможно относящийся к делу.

Представим себе человека, у которого такая странная мутация, что у него есть неограниченная память. (Это, конечно, некоторое противоречие, что он при этом по-прежнему мыслит привычным нам способом, но попробуем это противоречие проигнорировать.) Смог ли бы он сам для себя делать нужный поиск? Можно ли было бы в разговоре с ним получить нужную ссылку?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 01:28 (ссылка)
Да, я об этом. Тут, правда, противоречие в определении - если память у него неограниченная, он помнит все актуально. Ему не надо искать. Скорее, вот я - у меня журнал и я все, что тут, написал. Но текстов так много, что я сам "забыл", что написал - хотя, несомнено, вспомню, если мне напомнить, актуализировать. Как мне припомнить, что тут было про... вот это? В каком-то смысле это и положение любого другого человека. неавтора. Он ведь тоже кое-что знает, но не всё. Любое знание может быть понято как припоминание - в силу того. что у знания нет абсолютного начала, оно никогда не начинается с нуля. Чистая доска разума - противоречие в определении. если бы у кого-то оказался "чистый разум", то этот идиот никогда бы не узнал ничего нового.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anhinga_anhinga@lj
2009-08-19 02:36 (ссылка)
> если память у него неограниченная, он помнит все актуально

Но пусть, хоть она и неограниченная, процесс активации того или иного воспоминания происходит примерно как у нас. Это, конечно, тоже может быть противоречием, но допустим.

Мы точно не знаем как происходит активация/синтез воспоминаний (или "новых знаний"), но обычно думаем про это примерно в том духе, что в данный момент актуальны (то есть, находятся в ментальном фокусе) один или несколько небольших фрагментов воспоминаний/синтезированных ментальных картинок.

Представим себе, что это и у него так же -- в голове уже всё есть, в точности и в деталях, но надо, чтобы оно активировалось/попало в фокус.

Кроме этого, интроспекция нам мало что говорит, но обычно пытаются думать в терминах активации с помощью ассоциаций, и в терминах того, что некоторая часть воспоминаний/синтезированных ментальных картинок не совсем пассивна, а работает (до некоторой степени) вне ментального фокуса, "в подсознании", и некоторые из них "всплывают" в фокус в результате.

Довольно часто пытаются думать, что активных процессов за пределами фокуса гораздо больше, чем в фокусе.

Как бы то ни было, представим себе, что несмотря на "совершенную" память, эти механизмы активации у него, как у нас, даже если мы не уверены, в чем они состоят.

Но так или иначе -- такому человеку, несмотря на уверенность, что в "мозгу" у него уже всё в точности есть, придётся играть с ассоциациями, чтобы то, что ему надо, "всплыло" на поверхность.

Можно ещё предположить, что у него много силы и энергии генерировать близкие ассоциации и толкать себя в ту сторону, где, как ему кажется, живёт нужное ему воспоминание.. что он может гораздо более активно "шевелить мозгами", чем мы..

**************

вопрос, который я пытаюсь себе задать, важно ли, что эти воспоминания "уже в голове", и что все плохо известные нам "человеческие механизмы ассоциации" доступны? достаточно ли было бы этого, чтобы "найти всё, что хочется"..

или трудность не в том, что у человека в голове всё плохо сохраняется и он медленно соображает, а у машины механизмы ассоциации и интуиции не такие, как у человека (и, видимо, слабее), а что даже если допустить существование человека, сочетающего "в своей голове" достоинства человека и машины, всё равно задача слишком сложная (например, поиск заманит в другие интересные углы, потом в другие интересные углы, а до того угла, который искали, руки не дойдут)..

это всё, наверное, совсем не корректно, но, может быть, можно что-то нащупать, думая в этом направлении..

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 02:51:31
(без темы) - [info]anhinga_anhinga@lj, 2009-08-20 17:15:04
(без темы) - [info]russhatter@lj, 2009-08-20 13:01:58
(без темы) - [info]anhinga_anhinga@lj, 2009-08-20 16:56:46
(без темы) - [info]russhatter@lj, 2009-08-21 04:52:14
(без темы) - [info]anhinga_anhinga@lj, 2009-08-21 13:48:56
(без темы) - [info]anhinga_anhinga@lj, 2009-08-25 13:14:05
(без темы) - [info]russhatter@lj, 2009-08-26 12:15:39
(без темы) - [info]russhatter@lj, 2009-08-27 06:43:16
(без темы) - [info]anhinga_anhinga@lj, 2009-08-28 14:43:20
(без темы) - [info]kormitigrov@lj, 2009-08-28 15:09:56
(без темы) - [info]anhinga_anhinga@lj, 2009-08-28 20:42:47
(без темы) - [info]russhatter@lj, 2009-09-02 12:04:11

[info]photographer@lj
2009-08-19 17:55 (ссылка)
Я видел такого человека. Его зовут Jerry Michalski. Он выступал на последнем BayCHI-евском митинге в прошлый вторник (10 дней назад). Вот тут живёт его "мозг": http://webbrain.com/u/100h
Он собирает свои "мысли" (описывает и классифицирует своё понимание реальности, и заносит всякие ссылки) последние 12 лет, и насобирал их больше 120 тысяч.

Потыкайтесь там, это очень впечатляет.
Понятно, что если бы многие люди хотя бы ссылки из своего делишеса оформляли таким образом, и стал бы возможен поиск хотя бы по ключевым словам среди хотя бы нескольких экспертов в разных областях, эффективность такого поиска была бы гораздо выше, чем просто гугление, когда не понимаешь какие же ключевые слова использовать.

Когда в ходе митинга Джерри задавали из зала какие-то вопросы, он тут же вбивал слова в поисковую строку, и ещё даже до того, как нажимал Enter, становилось видно по мере ввода что у него много что есть сказать по каждой теме, и потом, когда показывался граф с зависимостями, оно ещё и встраивалось в контекст.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anhinga_anhinga@lj
2009-08-20 16:47 (ссылка)
Спасибо.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]photographer@lj, 2009-08-20 17:19:56
(без темы) - [info]anhinga_anhinga@lj, 2009-08-20 17:41:48
Интересно...
[info]kislin@lj
2009-08-19 04:25 (ссылка)
Может, я не до конца понял, что Вы имеете в виду.

Я работаю сейчас по похожей схеме. Весь информационный поток, отфильтрованный заносится в базу данных. В ней он разбивается по тематическим блокам + по более мелким группам, каждому сообщению присвается свой номер, ранг значимости, тэги, дата, а также содержательный комментарий. Можно в дальнейшем делать разнообразные типы отчётности по датам, по тэгам, по комментариям, по тематическим и смысловым блокам и т.п. Но этим надо целенаправленно заниматься, т.е. кто-то должен базу заполнять.

(Ответить) (Ветвь дискуссии)

Re: Интересно...
[info]ivanov_petrov@lj
2009-08-19 04:41 (ссылка)
да, это один из вариантов. Несколько громоздкий. Как понятно. самым ценным является содержательный комментарий.
но это - в общем, пустяк для начала. У Вас каждому сообщению поставлен в соответствие комментарий. То есть я не получаю существенного сжатия инфы - вынужден просматривать все комментарии. представьте, что комментарием служит заголовок - как это делается в оглавлении книги. У меня лента в ЖЖ - и там 5 тысяч текстов. 10 тысяч. 20... Лента заголовков немеряной длины. Чтобы по ней искать, мне надо ее сжать - но методы сжатия дожны быть умными. не через ключевые слова (по понятным причинам). то есть нужны коментарии к сериям текстов, а не к каждому. То есть нужны связные обзоры больших групп текстов. в которых элементы обзоров (предложения, абзацы и пр. являются отсылками к группам текстов.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Интересно...
[info]kislin@lj
2009-08-19 04:53 (ссылка)
Тут нужно понять, что именно Вы ищете. Комментарий не должен совпадать с заголовком, это должны быть разные поля. По опыту, искомая информация в большинстве случаев имеет тематическую связку, поэтому из 10 тысяч сообщений большая часть сразу отфильтровывается тематически, а затем можно взять остаток и посмотреть отчётность по комментариям, отобранную по тэгам, например.

Причём комментарий, как правило, это не резюме сообщения, а попытка именно включить сообщение в некий контекст, проследить тенденцию.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Интересно... - [info]ivanov_petrov@lj, 2009-08-19 04:58:03
Re: Интересно... - [info]kislin@lj, 2009-08-19 05:12:20
Re: Интересно... - [info]ivanov_petrov@lj, 2009-08-19 05:32:19
Re: Интересно... - [info]kislin@lj, 2009-08-19 06:02:54
Re: Интересно... - [info]ivanov_petrov@lj, 2009-08-19 06:20:35
Re: Интересно... - [info]kislin@lj, 2009-08-19 06:53:23
Re: Интересно...
[info]russhatter@lj
2009-08-21 05:05 (ссылка)
Беда вся в том, что такую выжимку надо делать "на заказ", под конкретного заказчика. Для Иванова надо делать одним способом, для Петрова - другим. Если обозреть всех потенциальных заказчиков, да посмотреть на суммарный объем выборок для каждого из них - он будет во много раз превосходить исходный комплект текста. Для того, чтобы решать эту задачу, нужно определить потребности заказчика. Ваш собеседник определился и вписался в определенную схему, и ему хорошо. Вы вот не определились - и Вам плохо. Будьте как все, ищите по тагам и не выпендривайтесь. Вступайте в ряды Фурье, будьте ближе к народу. :-)

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Интересно... - [info]ivanov_petrov@lj, 2009-08-21 05:50:46
Re: Интересно... - [info]russhatter@lj, 2009-08-21 06:01:44

[info]eldhenn@lj
2009-08-19 10:31 (ссылка)
Хочу отметить один недостаток иерархичности - ключевые слова, теги, интересы не всегда укладываются в дерево. Как правило даже не укладываются. Где искать информацию про хитрое устройство гнезда ос-полист? В зоологии? В занимательных фактах о строительстве? В курьёзах природы?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 10:59 (ссылка)
Не так выговариваете. В дерево укладывается всё, но не одним способом. То есть эта информация представлена на дереве во множестве мест. и при сильном ветвлении пользователь не уверен, где ее отыскать можно (в соответствии с секретом автора каталога), а где нельзя

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]photographer@lj
2009-08-19 17:58 (ссылка)
В упомянутом дереве -- "мозге" Джерри Михальского http://webbrain.com/u/100h -- или, строго говоря, в программе TheBrain, которой он пользуется, связи бывают трёх видов: на одном уровне (братья), снизу вверх (ребёнок-родитель), и сверху вниз (родитель-ребёнок). Когда есть все эти три типа, таким "деревом" получатеся описывать довольно сложные сущности.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-20 01:52:40

[info]fat_crocodile@lj
2009-08-31 21:25 (ссылка)
Дерево слабовато, конечно. Нужно не дерево, а граф. Чтобы один и тот же текст можно было поместить в несколько рубрик. Тогда отыскать можно будет и там и там и там.

А лучше несколько деревьев (графов), построенных по разным критериям (на одном и том же материале). Например, по темам, по годам, по языку..

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-09-01 01:20:43

[info]begemotv2718@lj
2009-08-19 11:01 (ссылка)
Единственное, что приходит в голову по этому поводу -- MindMaps. Но это сильно индивидуальный способ организации информации, он не годится для передачи другому, да и плохо работает с текстами.

Ну и второе -- хотелось бы сделать удобный инструмент для написания обзоров, обзоров обзоров, и т.п. Пока обычный гипертекст -- лучшее, что может предложить человечество по этому поводу?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 11:11 (ссылка)
да, майндмап для текстов не очень. А вот с обзорами бы повозиться.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]begemotv2718@lj
2009-08-19 11:43 (ссылка)
Иногда мечтается об инструменте, который бы позволял как-то изобразить всю совокупность гиперлинков в виде приятного для глаза графа. Это едва ли технически сложно, хотя и навряд-ли то. Перед тобой висят гроздья текстов, из них выбираешь самые спелые и вкусные, обрываешь вредные и засоряющие, чтобы оставшимся было больше света...;)

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]gouriev@lj, 2009-08-19 13:21:40
(без темы) - [info]begemotv2718@lj, 2009-08-20 10:51:30
(без темы) - [info]gouriev@lj, 2009-08-20 18:03:56

[info]qaraabayna@lj
2009-08-19 13:51 (ссылка)
Ленты, потому что если что и осталось от вебдваноль, так это user-generated content и аггрегирование. Верхний хит на любой специализированный программистский вопрос приведет на какой-нибудь форум.

(Ответить) (Ветвь дискуссии)


[info]gouriev@lj
2009-08-19 16:51 (ссылка)
что такое аггрегирование и правда ли оно существует ?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]qaraabayna@lj
2009-08-20 02:22 (ссылка)
google news например

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]kormitigrov@lj, 2009-08-20 12:50:01
(без темы) - [info]gouriev@lj, 2009-08-20 17:54:18

[info]qaraabayna@lj
2009-08-19 13:54 (ссылка)
Мой опыт показывает, что запасать как белка, ничего не нужно. Все действительное - разумно.

(Ответить)


[info]kormitigrov@lj
2009-08-19 14:50 (ссылка)
Небольшое техническое уточнение. Теги - они привычнее всего одноуровневые (и, таким образом, вообще без иерархии), и это общее место их восприятия. Но технически это совсем не обязательно. Добавить к тегам можно любое отношение, хотя бы "is a" (родитель-потомок), и вот теги уже организовались в онтологию систему. Это, если хотите, иерархия, но в ней куча пересекающихся слоев. Если что-то я пометил тегом "поездка 08.2009 на Урал", то найду, если буду просматривать по тегу "поездка".

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 15:51 (ссылка)
да, это вполне понятно

(Ответить) (Уровень выше)


[info]kormitigrov@lj
2009-08-19 14:56 (ссылка)
По поводу текстов-обзоров. Если, например, взять в качестве примера политические новости, то на WarAndPeace, например, Фыва каждую неделю делает обзоры (например, вот (http://www.warandpeace.ru/ru/exclusive/view/38028/)), которые представляют из себя связанный аналитический текст, в котором фразы предложения отсылают на отдельные новости. Народ ценит, пользуется и благодарит. С другой стороны, сами эти тексты, уже, по-моему, не поддаются, в свою очередь, такой же компрессии - потому что являются слишком разнородными, чтобы быть "свернутыми" в одно предложение где-то еще.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 15:52 (ссылка)
да нет, можно и дальше сворачивать, запросто.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kormitigrov@lj
2009-08-19 16:10 (ссылка)
Ну вот я смотрю на примере тех самых новостных сборок, и не вижу, как их можно дальше свернуть эффективно. Общий смысл, который из сборки можно вынести, одновременно характеризующий всю сборку - он слишком абстрактный получится. Хотя, конечно, с "разных сторон в разных словах" можно обобщать сколько угодно.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 16:29:06

[info]kormitigrov@lj
2009-08-19 15:05 (ссылка)
И вот такой, довольно интеерсный и редкий материал лежит в сети - с оценками представленности - но как сделать это ушедшее в прошлое - доступным и теперь? Нужен, наверное, какой-то интерфейс.

Мне кажется, искать можно двояко. Или я точно знаю, что ищу, или не знаю, но хочу просветиться. В первом случае, редкий и интересный материал в сети не потеряется, а обрастет ссылками и перепостами, получит высокий PR и всегда будет попадаться при поиске. Так однажды описанный нами опыт векторизации карт, например, стабильно висит на первом месте в гугле по соответствующему запросу уже много лет.
Во втором случае, ушедшее в прошлое действительно достаточно неплохо (при всех недостатках) сохраняется в википедии, как общее место видения некоторой области.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 15:56 (ссылка)
не думаю. Вы - мне кажется - путаете две совсем разные вещи: качество материала для данного пользователя и его запроса - и для множества пользователей. Редчайший и безумно интересный материал для меня - может быть совершенно не нужен чудовищно большому количеству людей и не обрастет пиаром. То есть у вас непроговариваемая предпосылка - что люди одинаковые и что множество людей интересуется одним и тем же. Для торговли это неплохая предпосылка, но тут-то речь совсем о другом. Про Ваш конкретный опыт про векторизацию говорить не буду, не знаю. скажу только вещь совершенно очевидную - про "соответствующий запрос". Надо заранее знать, какой- соответствующий.
Ответ про Вики - смысл его в том. что Вам всего хватает и ничего особо не надо. Я же с этим не спорю. Я говорю, что мне безумно не хватает и очень надо, и надеюсь, что не только мне. А Вы отвечаете - да нет, мол, нормалек, ничего не надо. ну что же, значит. я ошибся и это только моя проблема.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kormitigrov@lj
2009-08-19 16:32 (ссылка)
Да, вы правы в том, что есть предпосылка, из которой я исхожу. Она заключается в том, что если и есть метод обработки информации, который будет работать, пока не изобретут супер-пупер-ИИ, - это метод массовый, связанный с совместной обработкой (это лично мои шоры очки). А значит метод должен давать результат безумно интересный для той группы, которая имеет минимально достаточный размер для того, чтобы этот результат выработать. А для этого люди этой группы должны быть в каком-то смысле "одинаковые и интересоваться одним и тем же".
И результат этой группы совсем не обязательно "не обрастет пиаром" и потонет, потому что есть чудовищно большое количество людей, которым это не интересно. Это как раз скорее технический вопрос - как сделать так, чтобы эти отдельные результаты групп не потонули и были бы находимы тем новым участником, который начал себя ассоциировать с группой.

Написал кучу всего, а к пониманию вас так и не приблизился, по-моему :((

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-19 16:41:17
(без темы) - [info]kormitigrov@lj, 2009-08-19 17:01:02
(без темы) - [info]ivanov_petrov@lj, 2009-08-20 01:45:48
(без темы) - [info]gouriev@lj, 2009-08-19 17:04:30
(без темы) - [info]ivanov_petrov@lj, 2009-08-20 01:47:00
(без темы) - [info]gouriev@lj, 2009-08-20 17:09:07
кстати - [info]gouriev@lj, 2009-08-20 17:27:28
Re: кстати - [info]ivanov_petrov@lj, 2009-08-21 02:02:19
Re: кстати - [info]gouriev@lj, 2009-08-21 10:26:43
кстати, еще - [info]gouriev@lj, 2009-08-20 17:44:56
глянул сам... - [info]gouriev@lj, 2009-08-20 17:51:12
Re: глянул сам... - [info]ivanov_petrov@lj, 2009-08-21 02:04:38
:( - [info]gouriev@lj, 2009-08-21 10:19:15
Re: :( - [info]ivanov_petrov@lj, 2009-08-21 10:44:16
первая порция ссылок - [info]gouriev@lj, 2009-08-24 15:23:20
Re: первая порция ссылок - [info]ivanov_petrov@lj, 2009-08-24 15:38:54
Re: первая порция ссылок - [info]gouriev@lj, 2009-08-24 16:07:55
Re: первая порция ссылок - [info]gouriev@lj, 2009-08-24 16:55:26
запад vs россия - [info]gouriev@lj, 2009-08-24 17:06:07
(без темы) - [info]fat_crocodile@lj, 2009-08-31 21:13:16
(без темы) - [info]ivanov_petrov@lj, 2009-09-01 01:19:39

[info]kormitigrov@lj
2009-08-19 16:06 (ссылка)
По прочтении дискуссии, вычленил, как мне кажется, очень важный момент.

Раньше были такие наработки, люди что-то изобретали - те же индексы, оглавления и пр. Сейчас средства представления текстов изменились, можно напридумывать что-то еще. Но, судя по всему, это совершенно не та рамка, в которой движется мысль - даже те, кто любезно согласились комментировать этот пост, говорят о другом. О уже готовых средствах. Каталоги. майндмап и пр. Это все пустяки - вопрос в том. как умно работать, хоть бы и майндмапом, а мне говорят о готовой программе

Мне кажется, говоря о готовых средствах, люди неявно имеют в виду совсем не технические средства, а главным образом столь желаемые вами методы работы с информацией. Что такое теги? Ну уж точно не технология приписывания сообщению некоторых слов - а именно способ пометки, цель, вся мотня проблем вокруг использования различных тегов там, где +- должны быть те же самые, и т.д.
Каталоги, параллельные каталоги, теги, каталоги тегов, сети тегов, онтологии тегов, фольксономии тегов, совместная фильтрация, поисковые машины с PageRank, одновременная правка, вики, персонифицированные вики - это все не просто технологии, а связанные с ними (и первичные на самом деле) методы их использования.

Наработки появляются новые, просто люди гораздо более инертные, чем технологии. И между появлением технологии, и появлением, кристаллизацией метода, когда люди, наконец, понимают, как можно использовать эту технологию для нового, хитрого, способа обработки информации - огромный временно лаг.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-19 16:26 (ссылка)
Да, это чуть ближе. Лейтмотив моих высказываний тут - что дело (затык) не в компьютерных технологиях. а в технологиях содержательных. Грубо говоря - может быть, "желательное" мне запросто получается в виде проставления гиперссылок в неком тексте, и для создания нужна комптехнология - текстовый редактор. Это не дефицит - компьютерные технологии. А вот человеческие усилия, направленные на решение проблемы - дефицит. Изменение вида текстов и тех.средств предполагает новые технологии поиска. То. что придумали "для бумаги" библиотекари - было неплохо, но и тогда придумали далеко не все - достаточно знать. что в библиотечном деле были свои новации. прорывные направления и прочие таки штуки. Все это прикрылось практически с появлением компьютеров - бумажные технологии устарели. и смешно поднимать диссертации о правильной расстановке карточек. Но вот беда - нет осознания, что компьютеры как среда для размещения текстов, сети - это не решение проблемы поиска информации. а только условие. Как бумажная книга - то. что в ней можно "всё" напечатать, не решает проблему поиска, важно знать. как найти нужную книгу. Книга - это среда и условие для поиска по книгам, а сеть и поиск по словам, тэги и пр. - это всего лишь описание условий, в которых теперь ведется поиск, а как же он ведется и как ему быть - это и есть вопрос. Который, к сожалению, не возникает.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kormitigrov@lj
2009-08-19 17:16 (ссылка)
Вопрос возникает. Ответ просто так не возникает. Ответ, на мой взгляд, ищется всей историей развития информационных технологий. От идеи поиска нужного текста по количеству подходящих слов, к идее поиска текста с наибольшим page rank, - по сути, идее поиска текста, максимально оцененного как нужный вам всем глобальным сообществом. И дальше к персонализации, наверное.
Ответ так просто не возникает, а вы его самим заголовком этого поста требуете, и отмахиваетесь от упоминаний различных технологий (компьютерных - но и эквивалентных им содержательных!) - как маленьких шажков в поиске этого ответа. Меня на самом деле именно это подвигло все эти посты набивать.

(Ответить) (Уровень выше) (Ветвь дискуссии)

(без темы) - [info]ivanov_petrov@lj, 2009-08-20 01:49:07


1-я страница из 2
<<[1] [2] >>