Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Anton Shekhovtsov ([info]svonz)
@ 2006-02-03 11:38:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение: working

снова о books.google.com (техническое)
Это будет интересно совсем немногим, да и то, наверное, через blogs.yandex.ru, потому под кат -

Я не буду описывать общие положения касательно правильного поиска в books.google.com. Об этом можно, например, прочесть здесь. Несмотря на то, что указанный по ссылке способ с моей точки зрения представляется малоэффективным, у некоторых он работает, а это главное. Напишу краткий FAQ.

1. Какие страницы я никогда и ни за что не смогу увидеть в books.google.com?

Только те, которые в результатах поиска отмечены как [Sorry, this page's content is restricted.] Например, вы никогда не увидите (недавно выяснилось, что некоторые подобные страницы все-таки увидеть можно) страницу 118 из этой книги в books.google.com.
Все остальные увидеть можно. Это ключевой момент, о котором нужно помнить всегда, и думать лишь о том, как сделать так, чтобы их увидеть.
UPD: Недавно выяснилось, что некоторые страницы из помеченных [Sorry, this page's content is restricted.] увидеть все-таки можно.

2. В различных инструкциях по "взлому books.google.com" описывается общий поиск по номеру страницы, слову "the" или "and", названию главы, которая часто пишется в верхней части четных и/или нечетных страниц. Можно так искать?

Можно, однако данный способ эффективно работал только для прежней версии, т.е. для print.google.com. Теперь для слов навроде "the" и "and" есть программный фильтр, который выдает "the" is a very common word and was not included in your search или "and" is too general a query. Please try again with a more specific query. Поиск же по другим часто употребляющимся словам заканчивается четвертой страницей поиска, в которой вместо результатов появляется надпись Your search is too general. Please try again with a more specific query.

3. В результатах поиска появляются страницы, которые теоретически можно полностью просмотреть, но books.google.com выдает Restricted Page, хотя в результатах поиска эта страница не была помечена как [Sorry, this page's content is restricted.]. Очистка cache и cookies, вход на страницу под другим именем не помогают. Что делать?

Как я уже упоминал, books.google.com - более усовершенствованная программа, чем print.google.com. Потому могу дать следующие советы:
- Books.google.com запоминает ваш IP (обычно это касается различных типов выделенных подключений с постоянным IP). Попробуйте зайти на страницу под другим Gmail-аккаунтом через анонимный прокси-сервер. Я также пробовал временно переходить с выделенного подключения на dial-up. Иногда работает.
- Books.google.com запоминает ваш компьютер. С этим я столкнулся буквально на днях, потому еще толком не разобрался. Причем я пробовал переходить с одного компьютера (1) на работе на другой (2), где было совершенно иное Интернет-подключение, но books.google.com упорствовал, и только использование домашнего компьютера (3) спасло ситуацию. Почему 1=2≠3, я не знаю, увы.



(Добавить комментарий)

как цензурирует google
[info]rahenna
2006-02-03 14:39 (ссылка)
http://blog.outer-court.com/censored/

(Ответить) (Ветвь дискуссии)

Re: как цензурирует google
[info]svonz
2006-02-03 21:32 (ссылка)
В определенном смысле это хорошо.
Потому что отсутствие цензуры в западном понимании, это когда китайцам каждый день говорят, что они - кретины, живующие в тоталитарном обществе, и не знают прав человека. Китайцы же огораживаются от зла, идущего с Запада. И правильно делают, потому как это традиционно китайское -

Не выходя со двора, можно познать мир. Не выглядывая из окна, можно
видеть естественное дао. Чем дальше идешь, тем меньше познаешь. Поэтому
совершенномудрый не ходит, но познает [все]. Не видя [вещей], он проникает
в их [сущность]. Не действуя, он добивается успеха.

[...]
Пусть людям до конца своей жизни не уходят далеко [от своих мест].
Если [в государстве] имеются лодки и колесницы, не надо их употреблять.

[...]
Пусть соседние государства смотрят друг на друга, слушают друг
у друга пение петухов и лай собак, а люди до самой старости и смерти не
посещают друг друга.


Also sprach Laozi.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: как цензурирует google
[info]rahenna
2006-02-04 01:08 (ссылка)
я большая приверженица i ching. для меня это лучший способ узнать неузнаваемого. только избегаю говорить об этом.

(Ответить) (Уровень выше)


[info]drosselmeir
2006-02-04 00:33 (ссылка)
Привет!

Я писал тебе письмо электропочтой - как сложилась его судьба в дальнейшем?

(Ответить)


[info]osliha
2006-06-12 17:33 (ссылка)
Добрый день!
Меня тоже интересуют проблемы скачивания с Гугл Букс. И я тоже заметила (точнее -- заподозрила), что Гугл видит не только АйПи, но и компьютер. В общем, если Вы открыли какие-то секреты оптимизации скачки с Гугл Букс и можете ими поделиться -- буду очень благодарна.

(Ответить) (Ветвь дискуссии)


[info]svonz
2006-06-12 18:28 (ссылка)
1. Пару месяцев назад обнаружил, что не все страницы, которые в результатах поиска отмечены [Sorry, this page's content is restricted.], нельзя увидеть. Некоторые все-таки можно, т.е. нужно проверять.
2. Как вы сохраняете страницы из книги?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]osliha
2006-09-13 09:23 (ссылка)
e

(Ответить) (Уровень выше)


[info]osliha
2006-09-13 09:27 (ссылка)
Извините, что с таким опозданием отвечаю. Страницы я раньше сохраняла так -- в Мозилле "инструменты" - "информация о странице" - мультимедиа -- и там в многочисленных линках ищете изображение страницы. сохранялось в форматах jpg и еще каком-то "картинном". Но давно уже этим не занималась и новую версию Мозиллы поставила, она, кажется, как-то хуже с этим делом.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]svonz
2006-09-13 10:45 (ссылка)
>> Страницы я раньше сохраняла так -- в Мозилле "инструменты" - "информация о
>> странице" - мультимедиа

Я сейчас тоже так сохраняю. Главное в этом деле при сохранении указывать расширение .png - формат, в котором books.google выдает страницы. (Раньше сохранял черейз "Файл" -> "Сохранить как", выводя изображение напрямую [через прямой URL картинки]) С новой версией Файрфокса (1.5.0.6.) проблем не возникало. Главное .png указывать.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]hentiamenti.livejournal.com
2007-12-12 02:06 (ссылка)
Рекомендую для сохранения результатов программу ABBYY Screenshot Reader. Она поставляется с девятым проф. файнридером, ловит текст прямо с экрана; лучше всего ловить как снимок изображения в буфер обмена и потом фигачить в ворд-файл албомный по две страницы на страницу. Потом распознаете простым ридером или читаете.

(Ответить) (Уровень выше)


(Анонимно)
2006-10-14 00:42 (ссылка)
Mожно сохранять страницы в Опере .. Нужно выбрать File -> Save as.. и в опциях выбрать "html file with images". Тогда в папочке среди всякой лабуды будет лежать (под именем "books000") желанная страница.

(Ответить)

books.google.com
(Анонимно)
2007-02-28 19:28 (ссылка)
Привет!
Anton Shekhovtsov писал что:
"...Например, вы никогда не увидите (недавно выяснилось, что некоторые подобные страницы все-таки увидеть можно) страницу 118 из этой книги в books.google.com."

Их увидеть можно. Причем без особых усилий. я при первой же попытки открыл эту страницу. причем без всяких анонимных прокси и gmail аккаунтов. Как я понял важно не тянуть сразу сильно много. Не жадничать. Все равно сразу все не прочитать.
Для себя я выбрал следующую стратегию: 1) тянуть из разных книг, по 10-15 страниц из каждой в течении дня (это оправдано, т.к. книг интересных и нужных много и совсем не обязательно качать сразу много страниц только одной книги. по чуть-чуть но из многих книг). Предполагаю, что у гугла есть порог скачивания из одного источника за определенный промежуток времени. 2) поиск осуществлять не по книге, а прямо из стартовой страницы books.google.com (это скрывает мои намерения от гугла, так как рефер происходит из общей странички поиска). 3) ключевые слова брать из последней скаченной страницы (естественно слова должны быть позаковыристее. среди них должны быть те, которые определяют тему книги, чтоб она обязательно вошла в десятку найденных гуглом). 4) лично я часто пользуюсь IE(7) и потому закачанные картинки ищю в папке C:\Documents and Settings\"user"\Local Settings\Temporary Internet Files.
Они всегда именуются books[?].*. Когда хочу их забрать использую поиск по папке (можно указать промежуток времени когда они были скачаны) и групповое переименовывание. копирую в отдельную папку и там уже обрабатываю как мне хочется.

Stalker

(Ответить) (Ветвь дискуссии)

Re: books.google.com
(Анонимно)
2007-08-17 08:59 (ссылка)
Что не качается на гугле часто можно выкачать на амазоне. Для этого нуже аккаунт на амазоне, с которого уже совершались покупки. Если амазон замечает, что вы выкачали три (или четыре ?) идущих подряд страницы - эта книга для вас блокируется навсегда.

Граждане, у кого есть аккаунты на амазон, давайте объединяться. В моём распоряжении есть пока один - но им я уже скачал всё что мог из нужных книг, нужны другие. В свою очередь готов повыкачивать то, что нужно другим.
gregg129@gmail.com

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: books.google.com
[info]svonz
2007-08-23 07:47 (ссылка)
Что не получается найти на Амазоне можно попытаться найти на questia.com.

(Ответить) (Уровень выше)


[info]wazawai
2008-10-03 14:58 (ссылка)
Я вижу 118-ю страницу указанной книги. Что делать?

(Ответить) (Ветвь дискуссии)


[info]svonz
2008-10-03 15:26 (ссылка)
Что вы имеете в виду?

(Ответить) (Уровень выше) (Ветвь дискуссии)

GoogleBookDownloader
[info]cka3o4h1k
2008-11-08 02:18 (ссылка)
В вашем посту вы упоминаете эту страницу

Кроме не работающих в последнее время
http://book.huhiho.com
http://book.leechvideo.com[/color]

к вашему вниманию www.codeplex.com/GoogleBookDownloader
Для работы программы нужны .net35 и PostSharp-1.5

Качает то что доступно.

(Ответить) (Уровень выше)


(Анонимно)
2008-12-02 17:37 (ссылка)
Заметил такую штуку. Если просто искать книгу по имени допустим автора и названию, то ID у книги бывает разный, условно говоря "хороший" и "плохой". С хорошего можно забрать почти все, кроме тупо закрытых на (пока неясный) срок страниц. С плохого мало что удастся забрать. Забирать страницы можно без всякого поиска, просто указывая нужный номер и правильный ID. Этот способ работает лучше, чем заход на соседнюю страницу и пролистывание до нужной - нужная тогда вполне может оказаться закрытой, а если тут же зайти на нее напрямую - открытая.

условный пример: http://books.google.com/books?id=rAwdLcszTS8C&pg=PA317

Найдя драгоценную новую страничку ставлю увеличилку на максимум + F11, после чего забираю из кэша (Firefox). Не удалось забрать, сука, примерно 50 страниц из 600. Похоже на полную блокировку части контента, надеюсь временную. Помогает куча IP адресов, если она у вас есть, хорошо иметь несколько допустим линукс-аккаунтов в разных странах. Публичные прокси часто известны гуглу, и пользы от них немного. Чистка кэша и кукисов перед каждым сеансом.

(Ответить)


(Анонимно)
2008-12-02 17:41 (ссылка)
http://books.google.com/books?id=544bouZiztIC&pg=PA118

видна сразу, что внушает надежду <>

(Ответить) (Ветвь дискуссии)


(Анонимно)
2008-12-18 16:59 (ссылка)
чтобы просматривать новые страницы достаточно зайти под другим брузером
вопро как открыть страницы к которым "доступ временно ограничен"
на and и the он добросовестно показывает некоторые страницы, кроме закрытых
скачал всю книгу кроме 12 страниц, время не помогает - что делать??

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]svonz
2008-12-18 18:42 (ссылка)
Другой броузер мало помогает. Следует менять аккаунты и, желательно, адреса IP. Попробуйте также Tor.

Открыться страницы могут со временем, но, возможно, следует обратиться к Amazon - там часто выкладывают книги, но просматривать страницы могут только те, кто когда-либо заказывал товары в Amazon'е. Найдите такого человека (я, увы, помочь не смогу) и попросите скачать недостающие страницы.

(Ответить) (Уровень выше)