Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет r_l ([info]r_l)
@ 2010-09-05 16:12:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Объясните мне, веблюди добрые, что это значит?

"ночь * фонарь аптека" -улица
Результатов: примерно 6 260

"ночь * фонарь аптека" -улица -свет -"живи еще" -"исхода нет" -"сначала" -"как встарь" -"рябь канала"
Результатов: примерно 30 200

Если это читают люди из Google, буду очень признателен за разъяснение.
А если люди из "Яндекса" вдруг придут на помощь в решении проблемы (определение сравнительной частотности цитат из стихотворных текстов, включая трансформированные), то будет просто великолепно.


(Добавить комментарий)


[info]huzhepidarasa.livejournal.com
2010-09-05 19:19 (ссылка)
Эти числа — 6260, 30200 — не имеют отношения ни к чему. Они вылезают при поиске через обычный веб-интерфейс на google.com. Это баг. Мозилловское окошко поиска честно выдает меньше 40 ссылок в обоих случаях. Если пойти на последнюю страницу ресультатов веб-интерфейса, то и там окажется, что ссылок не тысячи, а те же 27 или сколько там.

(Ответить) (Ветвь дискуссии)


[info]r_l
2010-09-05 19:23 (ссылка)
Простите, но формулировка задачи противоречит очевиднейшим образом этим числам (типа меньше 40).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]huzhepidarasa.livejournal.com
2010-09-05 19:44 (ссылка)
Но это именно столько, сколько находит гугл. Яндекс находит немного больше, скажем, около 125. А чтобы не противоречило, сколько должно быть?

(Ответить) (Уровень выше)


[info]huzhepidarasa.livejournal.com
2010-09-05 19:53 (ссылка)
Простите, я ошибся. Дело не в окошке мозиллы, а в том, что у меня настроено 100 результатов на страницу, а не 10, как обычно. На последней странице счетчик результатов правильный.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-05 21:12 (ссылка)
Там проблема в том, что такие числа невозможны логически. Первая выдача должна включать в себя все результаты второй.
Опять филологов обижают!

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]huzhepidarasa.livejournal.com
2010-09-06 02:49 (ссылка)
А, в этом смысле. Гугль включает в список результатов страницы, на которых нет искомых слов, но которые тем не менее, по представлениям гугля, могут быть интересны (например, искомое слово есть в тексте ссылки на странице, которая ссылается на данную страницу). Так что выдача «50 результатов» не означает, что найдено ровно 50 страниц с нужным набором слов. Так что да, может получиться типа невозможный результат. И он таки получается: первый запрос выдает 36 страниц, второй 50. Но среди этих 50 много ложных срабатываний, на которых вообще искомых слов нет.

(Ответить) (Уровень выше)


[info]botev.livejournal.com
2010-09-05 19:36 (ссылка)
это ошибка гугла какая-то
яндекс нормально ищет

(Ответить) (Ветвь дискуссии)


[info]r_l
2010-09-05 21:09 (ссылка)
Яндекс выдает логически непротиворечивые, но подозрительные по абсолютным числам результаты. Впрочем, я еще не разбирался с тонкостями синтаксиса.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]in_b
2010-09-05 21:15 (ссылка)
абсолютные числа у Яндекса всегда каки-то астрономические. По любому более или менее стандартному запросу. Я никогда не относилась к ним всерьез, но не задумывалась, почему так
И еще там есть одна заморочка. Иногда, если много слов в запросе, он реагирует на те, которые введены последними, или просто ему больше нравятся. И ищет страницы только с этими словами. Т.е. упрощает себе задачу

(Ответить) (Уровень выше)


[info]kukutz
2010-09-05 23:47 (ссылка)
Синтаксис отрицания в Яндексе: ~~

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-05 23:50 (ссылка)
При этом - работает ли *?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 00:04 (ссылка)
Вот этого не знаю. Но точно должен работать /+1 в её роли

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-06 00:06 (ссылка)
Если можно, пример запроса приведите.
Чтобы поймать, скажем, все случаи типа "ночь, ижица, фонарь, калека".
Простите, что дергаю. Но правда нужно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 09:52 (ссылка)
"ночь /+1 фонарь аптека" ~~улица ~~свет ~~"живи еще" ~~"исхода нет" ~~сначала ~~"как встарь" ~~"рябь канала"

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-06 13:29 (ссылка)
Ну и что мы имеем в выдаче? Пустоту.
Равно как и просто при "ночь /+1 фонарь аптека" ~~ улица
Мне не кажется, что это работает ;)

(Ответить) (Уровень выше)


[info]r_l
2010-09-06 13:32 (ссылка)
А вот кстати * работает, вроде.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 13:33 (ссылка)
Упс, да, сорри, не проверил.

Сейчас поспрашиваю у ребят, что к чему.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-06 13:36 (ссылка)
Ну и радикально расходятся цифры по запросу
"ночь улица фонарь" "бессмысленный и тусклый" "живи еще" "исхода нет" "умрешь начнешь опять" "как встарь" "рябь канала" "аптека улица"
У гугеля - 150 000
У яндекса - 20 000
В принципе, если речь всего лишь об объеме базы, то этим можно и пренебречь. Вот понять бы, о чем речь...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 13:47 (ссылка)
Не об объёме, а о том, как именно поисковики делают примерную оценку. На неё нельзя полагаться, она примерная настолько, что это почти ничего не значит

(Ответить) (Уровень выше)


[info]kukutz
2010-09-06 13:44 (ссылка)
О, вот ответ:

Если нужно найти, какое слово пропущено между устройчивой парой, можно так:
(ночь /+2 фонарь /+1 аптека) ~~ улица
13:43 Что видим:
http://yandex.ua/yandsearch?text=%28%D0%BD%D0%BE%D1%87%D1%8C+%2F%2B2+%D1%84%D0%BE%D0%BD%D0%B0%D1%80%D1%8C+%2F%2B1+%D0%B0%D0%BF%D1%82%D0%B5%D0%BA%D0%B0%29+~~+%D1%83%D0%BB%D0%B8%D1%86%D0%B0&tld=ua&lr=144

девушка
Москва
улiца
Москва
уица
пятница
двор
Фрязино
undergroundgaze
корюшка

(Ответить) (Уровень выше)


[info]kukutz
2010-09-05 23:49 (ссылка)
в остальном в Я. всё выглядит похожим на правду, нет?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-05 23:50 (ссылка)
Ща проверю.
Вот сделать бы нормальный интерфас (невидимый миру) под эту задачу бы. Было бы здорово.

(Ответить) (Уровень выше)


[info]r_l
2010-09-06 13:45 (ссылка)
А черт - там кавычки не работают как точная форма. Он внутри все склоняет и спрягает.
Распустились!

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 13:52 (ссылка)
восклицательный знак решает

!форма

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-06 13:53 (ссылка)
Перед кавычками или перед каждым словом?
Простите, что надоедаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 15:44 (ссылка)
Каждым словом. Не надоедаете, welcome.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-06 15:47 (ссылка)
Спасибо!
А вот вопрос принципиальный - позволяет ли архитектура сервиса в принципе выдавать более осмысленные числа с указанием найденных страниц?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2010-09-06 15:53 (ссылка)
Насколько я понимаю, к сожалению, нет.

(Ответить) (Уровень выше)


[info]r_l
2010-09-06 15:54 (ссылка)
Неа.
"!ночь !улица !фонарь" "!бессмысленный !и !тусклый" "!живи !еще" "!исхода !нет" "!умрешь !начнется" "!как !встарь" "!рябь !канала" "!аптека !улица"

Выдает не только форму с распространенной ошибкой в тексте ("умрешь начнется все сначала"), но и правильную ("начнешь опять сначала").
Лечится, впрочем, введением ~~!начнешь ~~!начнеш ~~!начьнешь ~~!начьнеш (ну еще какие-то опечатки попадаются, но это ничего).

Очень громоздко. Хорошо бы формочку залудить было. Если бы да кабы.

(Ответить) (Уровень выше)


[info]lz
2010-09-05 21:02 (ссылка)
Завтра спрошу одного люда из Гугла

(Ответить) (Ветвь дискуссии)


[info]r_l
2010-09-05 21:10 (ссылка)
Кажется, там дело в ранжировании страниц.
А жаль - в высшей степени занимательные задачи.

(Ответить) (Уровень выше)


[info]almiro
2010-09-05 21:16 (ссылка)
эээ.... оператор минус в гугле, судя по документации, так не работает.

(Ответить) (Ветвь дискуссии)


[info]r_l
2010-09-05 22:32 (ссылка)
С простыми задачами таки работает, нет?

(Ответить) (Уровень выше)


[info]r_l
2010-09-05 22:45 (ссылка)
А чего там в документации писано про это (ссылку, брат, ссылку!)?

(Ответить) (Уровень выше)


[info]cemehob
2010-09-05 23:51 (ссылка)
Почему не работает?
http://www.google.com/support/websearch/bin/answer.py?answer=136861

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]almiro
2010-09-05 23:54 (ссылка)
потому что кириллица. он не распознает сам символ.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]twenty
2010-09-06 15:03 (ссылка)
чего-чего? какой символ?

(Ответить) (Уровень выше)


[info]asja-bo.livejournal.com
2010-09-05 23:39 (ссылка)
NOT пиши, а не *
но вообще в гугле операторы из рук вон

(Ответить) (Ветвь дискуссии)


[info]asja-bo.livejournal.com
2010-09-05 23:40 (ссылка)
т.е. NOT, а не -

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l
2010-09-05 23:49 (ссылка)
А Булевы там работают? Ща попробую.
Понимаешь смысл задачи? Довольно нужно.

(Ответить) (Уровень выше)


[info]twenty
2010-09-06 00:27 (ссылка)
оператора NOT не существует вообще-то, что легко проверить, минус правильно.
у меня по первой ссылке 27 результатов, по второй (на русский гугл, hl=ru) 28-30, по разному определяются дубликаты

(Ответить) (Уровень выше)


[info]bbb.livejournal.com
2010-09-06 08:15 (ссылка)
Мне гугл по обоим линкам выдает ровно 27 результатов.

(Ответить)

take the rag away from your face
[info]sm
2010-09-06 13:35 (ссылка)
Напишите, пожалуйста, потом отдельную заметку о результатах исследования. Для интереса, удобства и любителей всего готовенького.

(Ответить) (Ветвь дискуссии)

Re: take the rag away from your face
[info]r_l
2010-09-06 17:39 (ссылка)
Покуда не видать результатов.

(Ответить) (Уровень выше)

Re: take the rag away from your face
[info]mochalkina
2010-09-08 11:03 (ссылка)
присоединяюсь.

(Ответить) (Уровень выше)