Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет r_l ([info]r_l)
@ 2011-05-14 12:35:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
К новой текстологии: "OCR-viruses"
Новая славная текстология: ошибочный вариант цитаты, размещенный в авторитетном месте (авторитетность понимается здесь отнюдь не филологически) при копипейсте имеет шансы на выживание не меньше нормального. В реальности пока действует "закон агенства паталогоанатомов" - неверных вариантов, кажется, меньше, чем верных. Очень жалею, что когда-то, осознав эту проблему, не начал отслеживать динамику (тогда, кажется, и цифры, выдаваемые гуглом как информация о вхождениях, не были еще непонятным украшением и имели отношение к реальности базы данных). Но я не уверен, что этот закон универсален.

Пример:
Человек превращается в шорох пера на бумаге, в кольцо (там еще один ляп, кажется, во всех случаях - отсутствие запятой между стихами, что дает дополнительную семантическую ошибку: "кольцо петли").
Очевидный источник вируса в сети - файл из библиотеки Мошкова; свод текстов подготовлен С. Винницким, который, несмотря на свою несомненную добродетельность, бага ввел в строй. В преамбуле С.В. указывает на множественность источников свода: т.е. ошибка может восходить к одному из электронных вариантов "Части речи", но сетевая авторитетность lib.ru несомненна.
Мощный ретранслятор вируса - lib.rus.ec (примечания с инициалами "С.В." перенесены из файла lib.ru, но атрибуция вычитки и преамбула сняты).
В выдаче - цитаты в блогах и самодеятельные собрания. Остается сидеть и ждать, когда вирус перекочует в другие жанры.
Покуда в поиске по книгам видна только эта цитата (с пропушенной запятой, т.е. не имеющая непосредственного отношения к нашему вирусу):

Впрочем, можно предположить, что материальным источником цитаты явился именно наш зараженный файл (одна из его инкарнаций), автор монографии самостоятельно снял одну ошибку (связанную с рифмовкой и легко опознаваемую) и не заметил второй.
Интересно было бы составить каталог таких мутаций, поглядев на них с точки зрения типологии искажений, вносимых в текст. Конечно, оптимальный объект тут - "На независимость Украины".


(Читать комментарии) - (Добавить комментарий)


[info]r_l
2011-05-14 14:44 (ссылка)
Не совсем. Там часто непонятные места заменялись понятными переписчику, стремящемуся сохранить структурность (когда-то я писал эссей об аналогичных процессах при самиздатовском размножении темных текстов, напр. Мандельштама). OCR лепит опечатки вне всякого смысла, некоторые затем проскакивают простейший лингвистический фильтр спеллчекера и вычитки (как в данном случае), а затем просто репродуцируются уже без контроля. Переписать-то без контроля тоже можно (например, не зная языка и перерисовывая узор букв), но это - маргинальный случай. Средневековые книжники все же читать умели. И ощущали повышенную ответственность перед текстом. У них не было клавиш "Ctrl", "C" и "V".

(Ответить) (Уровень выше)


(Читать комментарии) -