Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Игорь Петров ([info]labas)
@ 2010-02-26 20:21:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
холодный отжим текста
[info]diesell@lj попросил меня рассказать, как я вытаскиваю тексты из гугльбукса. Никакой хитрости тут нет, более того, возможно, есть более эффективный способ, тем не менее, если нужно посмотреть небольшой кусок (максимум 2-3 страницы), то это, конечно, удобнее, чем специально ходить в библиотеку.

Текст вытаскивается по методу коромысла, когда с помощью текстовых кусков вытаскиваются картинки-«папирусы» и наоборот. В случае, когда следующий кусок текста попадает в «мертвую зону», не выдаваемую ни как текст, ни как «папирус», к текстовому запросу присоединяется простейшее короткое слово (союз, предлог, местоимение), либо ключевое слово, о котором известно, что оно встречается в дальнейшем.

Разберем на конкретном примере: книга Викторина Попова «Снег и солнце», меня интересует страница 28.

Для удобства я использую два таба браузера: один для запросов по books.google.com (верхнее окошко), далее таб 1, а второй для запросов по книге (нижнее окошко), далее таб 2.

запростабвыдачакомментарий
"Травин"2начало страницы
"путешественник вокруг света на"1- Я - Травин, путешественник вокруг света на велосипеде.
- На велосипеде?!
- Помогите снять одежду, - не отвечая, попросил Травин. - Сейчас я с Печоры, ...
"Сейчас я с Печоры"1Сейчас я с Печоры, переход ужасный, заблудился... Чувствую, отморозил ноги.
"Чувствую, отморозил ноги"2"мертвая зона"
"Чувствую, отморозил ноги" и1попросил Травин. Гостя уложили в постель, и в ту же минуту безмятежноотсюда идем сначала вверх
"Гостя уложили в постель"1Внесите, пожалуйста, его, он у сеней, - попросил Травин. Гостя уложили в постель, и в ту же минуту безмятежно, словно новорожденный, он заснул.
"Внесите, пожалуйста"2.
"в ледяную воду пальцы "1ноги спустили в ледяную воду; пальцы действительно оказались
"ноги спустили"2выдается ложный "папирус", такое порой случается
"Чувствую, отморозил ноги" "ноги спустили"1Чувствую, отморозил ноги...
Костюм разрезали сухарным ножом, ноги спустили в ледяную воду; пальцы действительно оказались
смычка! теперь идем вниз
"он заснул"2
"на лампу, на бодрствовавшего"1на лампу, на бодрствовавшего пекаря. Травин сказал слово, и началась у них беседа, в которой удивительный велосипедист поведал
"велосипедист поведал" о1велосипедист поведал пекарю о своей затее. Около трех лет назад выехал он на велосипеде из Пскова на
"он на велосипеде из Пскова на" 1он на велосипеде из Пскова на Ленинград, Вятку, Владивосток, Камчатку, вдоль китайской границы на Монголию, по Сибири,
"на Монголию, по Сибири" Кавказ 1на Монголию, по Сибири, Туркестану на Каспий, Кавказ, в Крым; Украину, Белоруссию, Карелию, Лапландию, использовал в запросе слово "Кавказ", потому что знал маршрут Травина
"Лапландию "2
"человека пекарь" с1человека пекарь.
Велосипедист развернул тетрадь с сотнями регистрационных печатей, подтверждающих путь следования
"подтверждающих путь "2
"японцев в Хакодате"1японцев в Хакодате.
— Метели, туманы... — рассказывал Травин про поход с Печоры.
"поход с Печоры"2конец страницы


Итог:
— Я — Травин, путешественник вокруг света на велосипеде.
— На велосипеде?!
— Помогите снять одежду, — не отвечая, попросил Травин. — Сейчас я с Печоры, переход ужасный, заблудился... Чувствую, отморозил ноги.
Костюм разрезали сухарным ножом, ноги спустили в ледяную воду; пальцы действительно оказались обморожены.
— На велосипеде?! - не мог притти в себя пекарь.
— Внесите, пожалуйста, его, он у сеней, — попросил Травин.
Гостя уложили в постель, и в ту же минуту безмятежно, словно новорожденный, он заснул.
Ночь. За стенами посвистывает стихающий ветер. Травин промычал во сне, полуоткрыл глаза на лампу, на бодрствующего пекаря. Травин сказал слово, и началась у них беседа, в которой удивительный велосипедист поведал пекарю о своей затее.
Около трех лет назад выехал он на велосипеде из Пскова на Ленинград, Вятку, Владивосток, Камчатку, вдоль китайской границы на Монголию, по Сибири, Туркестану на Каспий, Кавказ, в Крым; Украину, Белоруссию, Карелию, Лапландию, оттуда в Архангельск, Пинегу, Вайгач и теперь Хабарово.
— Вот какие дела! - потирал руки обрадованный появлением человека пекарь. Велосипедист развернул тетрадь с сотнями регистрационных печатей - огромные печати Циков нацреспублик, скромные — окружных и волостных исполкомов, иероглифическая надпись японцев в Хакодате.
— Метели, туманы... — рассказывал Травин про поход с Печоры. Продвигался не более пятнадцати километров в сутки. Пришлось выйти на лед и двигаться вблизи берега по компасу. У острова Пе


Upd: [info]kcmamu @lj подсказал гораздо более простой и рациональный способ.


(Читать комментарии) - (Добавить комментарий)


[info]vba_@lj
2010-02-27 11:09 (ссылка)
Большое спасибо.

Вот последний кусок с папирусом (верхний из двух)
http://books.google.com/books?id=K9ogAQAAIAAJ&q=%D0%95%D0%BD%D0%B8-%D0%91%D0%B0%D0%B7%D0%B0%D1%80%D0%B0,+%D1%88%D1%82%D1%83%D1%80%D0%BC%D0%B5+%D0%A8%D1%83%D0%BC%D0%BB%D1%8B+******&dq=%D0%95%D0%BD%D0%B8-%D0%91%D0%B0%D0%B7%D0%B0%D1%80%D0%B0,+%D1%88%D1%82%D1%83%D1%80%D0%BC%D0%B5+%D0%A8%D1%83%D0%BC%D0%BB%D1%8B+******&cd=2

А это следующий (и последний) кусок текста по внешнему поиску
http://books.google.com/books?cd=2&q=%22%D0%95%D0%BD%D0%B8-%D0%91%D0%B0%D0%B7%D0%B0%D1%80%D0%B0%2C+%D1%88%D1%82%D1%83%D1%80%D0%BC%D0%B5+%D0%A8%D1%83%D0%BC%D0%BB%D1%8B+******&btnG=Search+Books

И вот дальше - никак. Может быть, я что-то делаю неправильно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]labas@lj
2010-02-27 11:26 (ссылка)
за что б. награжден орд. св. Владимира 4 ст. и 3 ст. с бант., св. Анны 2 ст.
с алмазами, зол. полусаблей и чин. г.-м. В 1831 г. Д. действовал удачно в Польше, особенно отличившись при осаде Замостья . 4 г. воен. действий и 2 контузии расстроили его здоровье, и он вышел в 1832 г. в отставку. Вернувшись на службу в 1843 г., Д. командовал сперва бр-дой, а потом 24-й пех. д-зией; в 1865 г. б. произв. в ген. от инф. с зачислением по запас. войскам. («Рус.Инв.», 1878, No 46).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vba_@lj
2010-02-27 11:47 (ссылка)
Спасибо, этот текст у меня есть.
Это я просто тренировался, потому что нередко с такими текстами сталкиваюсь :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]labas@lj
2010-02-27 11:56 (ссылка)
По такому запросу "орд. св. Владимира 4 ст. и 3 ст. с бант." выдергивается "св. Анны 2"
Дальше спотыкается на знаках препинания.
Тогда применяем военную хитрость и делаем запрос "Владимира 4 ст. и 3 ст" "Анны 2 ******" (кавычки важны!)
выдергивается "Анны 2 ст. с алмазами, зол"

Дальше уже указанным [info]kcmamu@lj путем: "Анны 2 ст. с алмазами, зол. ******" и т.д.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vba_@lj
2010-02-27 12:12 (ссылка)
Спасибо!
У меня, никак не получалось выдернуть Анну. Значит, еще одно правило таково - текст запроса не должен быть слишком длинным. Анна выдергивается, если запрос начинается с Владимира, но если есть еще 4-5 слов перед Владимиром, то обрыв опять на том же месте.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]labas@lj
2010-02-27 12:13 (ссылка)
Да, все верно.

(Ответить) (Уровень выше)


[info]kcmamu@lj
2010-02-27 11:49 (ссылка)
В словаре 1905 года следующим идет Домонтович. Ищем этого Домонтовича и идем задом наперед. Выдергивается всё:

...Владимира 4 ст. и 3 ст. с бант., св. Анны 2 ст. с алмазами, зол. полусаблей и чин. г.-м. В 1831 г. Д. действовал удачно в Польше, особенно отличившись при осаде Замостья. 4 г. воен. действий и 2 контузии расстроили его здоровье, и он вышел в 1832 г. в отставку. Вернувшись на службу в 1843 г., Д. командовал сперва бр-дой, а потом 24-й пех. д-зией; в 1865 г. б. произв. в ген. от инф. с зачислением по запас. войскам. («Рус. Инв.», 1878, No 46). ДОМОНТОВИЧ, Алексей Иванович, ген. от кав...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vba_@lj
2010-02-27 12:07 (ссылка)
А, так вот еще прекрасная возможность - идти задом наперед! Спасибо.
Я до этого не догадался.
Как много, оказывается, подходов!

(Ответить) (Уровень выше)


[info]vba_@lj
2010-02-27 12:15 (ссылка)
Вообще предложенный метод на этом примере впечатляет. При таком количестве сокращений и знаков препинания - все работает.
Потрясающе!

(Ответить) (Уровень выше)


[info]vba_@lj
2010-03-01 17:34 (ссылка)
Прошу прощения за беспокойство, но нет ли у Вас каких-то специальных приемов для прохождения задом наперед? У меня обратный ход работает, но не всегда. Вперед получается без проблем, но в обратную сторону иногда - никак.

Вот пример. От этого текста никак не могу пройти назад
http://books.google.com/books?id=YElbAAAAQAAJ&q=%22%D1%8D%D1%82%D0%BE%D1%82%D1%8A+%D0%94%D0%BE%D0%BC%D0%B5%D1%82%D1%82%D0%B8&dq=%22%D1%8D%D1%82%D0%BE%D1%82%D1%8A+%D0%94%D0%BE%D0%BC%D0%B5%D1%82%D1%82%D0%B8&cd=1

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kcmamu@lj
2010-03-01 18:07 (ссылка)
Там, похоже, к паре страниц доступ намертво закрыт. Противодействуют...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vba_@lj
2010-03-02 05:42 (ссылка)
А, спасибо.

А то я уже подумал, что просто слишком тупой.

(Ответить) (Уровень выше)


(Анонимно)
2010-03-02 17:10 (ссылка)
Там только одна страница недоступна (627).
books.google.com/books?q="*+*+*+раза%2C+и+начало+дурной"

Конкретно в данном случае, "Русская старина" за 1910 год, видимо, станет доступна на гуглобуксах через US-прокси со следующего года. Бывает, если на Гугле есть несколько сканов одного и того же номера журнала из разных библиотек, то помогает поиск в другом скане. Внизу странички Book Overview часто есть ссылка All editions. Например, для "Русской старины" надо задать адрес books.google.com/books?q=editions:OXFORD555094908
Иногда этого недостаточно, т.к. из-за опечаток в названии книги/журнала в этот список попадают не все номера/издания. Если вы заметили, журнал на Гугле называется Rrusskaya starina. Если, скажем, какие-то номера были отсканированы в другое время из коллекции другой библиотеки, то название могло быть транскрибировано иначе. Скажем, латинская транскрипция русских названий из коллекции Баварской государственной библиотеки практически всегда отличается от транскрипции библиотек американских университетов, а иной раз название дается кириллицей.
Например,
books.google.com/books?id=JxUcAAAAIAAJ и
books.google.com/books?q=editions:IND30000108521307

Русские тексты в базе поиска нередко содержат ошибки распознавания (особенно тексты в дореформенной орфографии). Иногда это помогает при поиске (снижает количество выдаваемых вариантов), чаще мешает (тот же текст в другом скане может не найтись).

Многое из того, что есть на гуглобуксах (и кое-что, чего нет), выкладывается на www.archive.org. И там не надо лазить через американский прокси, чтоб смотреть тексты 1869-1909 гг.

Подробная инструкция по пользованию гуглобуксами есть в немецком WikiSource:
de.wikisource.org/wiki/WS:GBS

Искомая цитата вроде бы из "Набросок из моей жизни" С.П. Зыкова?
books.google.com/books?id=YElbAAAAQAAJ&q=%D0%97%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0
Можно еще поискать, не было ли переизданий.

Вот похожие, но относящиеся к более раннему периоду, воспоминания Д.Г. Колокольцова (см. через американский прокси или с помощью www.googlesharing.net):
books.google.com/books?id=pPnTAAAAMAAJ&pg=PA273
books.google.com/books?id=4-gGAAAAQAAJ&pg=PA273

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vba_@lj
2010-03-02 18:39 (ссылка)
С большим интересом прочел Ваш комментарий. Очень благодарен за информацию.

Действительно, существуют возможности поиска по другим изданиям, я, как-то, об этом не подумал. И я не знал, что важен американский прокси.

www.archive.org - очень хороший ресурс, жаль не ведет поиска по текстам (вроде, только по заголовкам).

Что касается мемуарной литературы, то тоже очень хороший ресурс http://www.memoirs.ru/catalogfull.htm, там много в открытом доступе, а то, что закрыто, высылается за какую-то смешную плату (5 руб.) В частности, там лежат и эти любезно указанные Вами "Наброски из моей жизни" С.П.Зыкова с краткой аннотацией.

(Ответить) (Уровень выше)


(Читать комментарии) -