Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет bbb ([info]bbb)
@ 2005-01-14 11:48:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
снова об авторских правах
http://www.livejournal.com/users/corsika/591077.html?thread=2699749


(Читать комментарии) - (Добавить комментарий)


[info]induke@lj
2005-01-14 15:07 (ссылка)
Насколько я понимаю, чаще всего robots.txt используют не для того, чтобы запретить поиск на сайте, а чтобы ограничить нагрузку на сервер. Это вполне реальные требования к поисковикам, и если они их не соблюдают, индексирование отрубается на корню - на файруолл ставится запрет на их IP.

Здесь же несколько другая постановка вопроса: я написал что-то, и дал возможность всему миру это посмотреть. Однако я не хочу, чтобы вы это индексировали из-за каких-то соображений. Можно скривиться и соблюдать это желание, а можно и нет, в зависимости от желаний пользователей данного поисковика.

В любом случае, утверждать, что кто-то имеет право контролировать распространение документа, который уже и так доступен абсолютно всем, безсмысленно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mama_ari@lj
2005-01-14 15:22 (ссылка)
ip роботов меняются часто, все не запретишь
реальная ситуация с запретом индексирования директорий: вот лежит на сервере директория, на которую никаких ссылок с собственно сайта. но не защищённая паролями. ну выложила организация всякие не особо секретные файлы для сотрудников, доступные из любого места, например из офиса клиента в другом городе. исходя из "кому надо - знает прямой url документа и имеет доступ, остальные его не увидят". однако проходит время и прямые ссылки на документы появляются, например, в файлах статистики, например, у того же клиента. есть, знаете ли, такие дурацкие админы, у которых отчёты лог-анализатора формируются как открытые html-документы. и вот по этим ссылкам роботы начинают находить ту директорию. здесь и срабатывает robots.txt.
это некоторая аналогия происходящему.
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]induke@lj
2005-01-14 15:42 (ссылка)
По поводу секретных файлов в открытых директориях - это уже диагноз, тут никакие роботы не спасут. Расчитывать на то, что поисковики не выдадут вашу секретную информацию это халатность, мягко говоря.

А каким образом Яндекс проиндексировал запретные болги не знаю. Думаю, что они перекупили у кого-то технологию (например у lj.crossroads.ru), а те не уважали роботов.

Да, вот еще вопрос - как с постингами быть. Допустим я не хочу, чтобы мои комментарии на журнале [info]bbb@lj были индексированы. Но реально такой возможности у меня нет. В этом случае поведение роботов не меняется, однако теперь они делают что-то с моими комментариями против моей воли.

Или наоборот - я оставил комментарий у [info]corsica@lj с надеждой, что его проиндексируют, а мне большую дулю показывают. Нехорошо ведь :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mama_ari@lj
2005-01-14 17:46 (ссылка)
ну, я приводила пример из известной мне жизни, но не своей :)
у меня диагноза нет :)

(Ответить) (Уровень выше)


[info]tejblum@lj
2005-01-14 16:27 (ссылка)
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

От этого утверждения и отвеча [info]induke@lj я, откровенно говоря, совсем обалдеваю. Обращаю внимание, что вы с ним обсуждаете не неизвестно какой robots.txt, а вполне конкретный. Если вам вдруг лень набрать этот url, вот он: http://www.livejournal.com/robots.txt . Нажмите на эту ссылку и посмотрите что там написано! Вы увидите, что там не запрещен ни один журнал.

На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/

<meta name="robots" content="noindex, nofollow, noarchive" />

Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mama_ari@lj
2005-01-14 17:56 (ссылка)
спасибо большое!

(Ответить) (Уровень выше)


[info]russhatter@lj
2005-01-17 05:02 (ссылка)
Уточняю. Хак - не грязный, а просто кривой. Яндексу стыдиться нечего, проблемы на стороне LJ: кроме непоредственно самодеятельности с файлом robots.txt, они еще несколько мимо стандарта попадают... Так что факт учета "специфики" LJ Яндексом - акт доброй воли. Все остальные могут легко обойтись без такового, если выполнят необременительную модификацию при формировании RSS файлов.

(Ответить) (Уровень выше)


(Читать комментарии) -