Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет kassian ([info]kassian)
@ 2007-01-10 01:12:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Entry tags:lang

Эксперимент и опрос

В предыдущем топике зашла речь о том, насколько необходимы грамматические показатели для понимания текста. Сначала это обсуждалось с библеистом [info]ailoyros@lj'ом, потом к нам присоединился уже лингвист [info]fbmk@lj (начало, продолжение), ну и дальше пошло-поехало.

А теперь сам эксперимент-опрос (аналогичные опыты проводились, но попробуем повторить).

Вот русский текст (я взял первый попавшийся пассаж из моего жж). Из него убраны все грам. показатели -- точнее говоря, все лексемы даны в их словарной форме.

Дополнительные сложности.
-- Текст без начала (т.е. абзац вырван из более широкого контекста).
-- На какую тему текст вы изначально не знаете.
-- Текст на узко профессиональную тему. Напр., какие-то лексемы могут просто не входить в пассивный словарный запас среднего носителя СРЛЯ.
-- Текст был изначально составлен мною в разговорном стиле.

Бонус: в одном случае я добавил местоимение.



Вопрос. Что вы не поняли в это тексте? (Предполагается, что вы прочтете его внимательно и попробуете отдельно разобрать те фрагменты, к-рые сходу вам показались темными.)


Под катом этот же текст с грамматически правильными флексиями -- для проверки.
Но: в тексте под катом убрана оппозиция по глухости~звонкости (все звонкие заменены на их глухие корреляты). Это проблем для понимания не составит, на мой взгляд, никаких. Просто иллюстрация к сопутствующему тезису, что и многие фонологические оппозиции для СРЛЯ являются избыточными.

_______________________________________________________
Текст.
Вы поверить, что формат djvu (не смотреть на он казаться привлекательный) -- не наш метод.
Pdf -- промышленный стандарт. Под он уже сделать очень много высококачественный дополнительный программа. Даже голый Acrobat (т.е. без дополнительный плагин) давать возможность работать с файл почти как с бумажный книга (например, помещать маргиналия [с подпись автор]). Единственный преимущество djvu -- размер файл, но в наш время дешевый носитель и быстрый интернет это не перевешивать весь остальное.
_______________________________________________________


_______________________________________________________
Грамматически правильный текст.
Поферьте, что формат djvu (несмотря на ефо кашущуюся прифлекательность) -- не наш метот. Pdf -- промышленный стантарт. Пот нефо уше стелано очень мноко фысококачестфенных тополнительных прокрамм. Таше колый Acrobat (т.е. бес тополнительных плакинов) тает фосмошность рапотать с файлом почти как с пумашной кникой (например, помещать маркиналии [с потписью афтора]). Етинстфенное преимущестфо djvu -- расмер файлоф, но ф наше фремя тешевых носителей и пыстрого интернета это не перевешифает фсефо остальнофо.
_______________________________________________________



(Читать комментарии) - (Добавить комментарий)


[info]sofunja@lj
2007-01-10 03:38 (ссылка)
Потому что в ответ на вопрос: насколько необходимы грамматические показатели для понимания текста?- он не дает однозначного и категоричного ответа: ни насколько не нужны, он скорее дает ответ, что в данном примере из данного языка это совсем ненужно. Однако, если мы будем последовательны и проверим на других языках с соблюдением условия давать слова в словарной форме, картина окажется весьма и весьма не такой радужной (особенно, если быть до конца честными и убирать грамматические показатели и из словарной формы). Представила такой текст на болгарском, греческом и новом и старом, на турецком, на хурритском. Получилось следующее: 1) мне активно помогают фоновые знания, а именно, я восстанавливаю на автомате, все возможные в контексте грамматические показатели и уже из восстановленного выбираю наиболее вероятное. Что само по себе делает даже этот эксперимент недостаточно чистым 2) Плюс в некоторых случаях вероятность не одна, а несколько вполне равноправных.
Могу попробовать провести максимально чистый эксперимент: подобрать несколько фраз на разных языках (из тех, которые ученики не знают), убрав из них все грамматические костыли, дать ученикам в пятницу словари этих языков и попросить перевести.
Можно также провести его в несколько откорректированном варианте и здесь в жж, только не знаю, как это лучше технически сделать.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fbmk@lj
2007-01-10 12:19 (ссылка)
1) это не делает эксперимент нечистым. Положительный результат эксперимента возможен именно потому, что мы интерпретируем максимально понятный, максимально стандартный текст. Отдельные, данные вне контекста и не очень понятные предложения уж точно нельзя восстановить, это даже обсуждать нечего.
2) где в этом тексте несколько вероятностей?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sofunja@lj
2007-01-10 12:57 (ссылка)
1)он нечист (может, лучше другое слово, но пока в голову не приходит) не потому, что текст максимально понятен или стандартен. И я не предлагаю восстанавливать те данные, которые Сергей Крылов называет II 4, и о чем идет речь здесь (http://sergej-krylov.livejournal.com/12326.html) Я лишь говорю о том, что это неплохо работает в русском, хотя один контекст для доказательства гипотезы маловато. Но это хуже работает в некоторых других языках. Например, в тех, которые я выше перечислила. Когда дойду до дома впишу сюда те примеры, которые записала себе на листочке, слова тоже напишу и попробуем проверить мою мысль, может, мне так показалось на первый взгляд.
2)про вероятности я говорила о примерах на других языках

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fbmk@lj
2007-01-10 13:03 (ссылка)
Понятно.
Поверхностное ощущение состоит в том, что в русском чаще всего плохо восстанавливаются время/вид глагола и число существительного, однако время часто всё-таки ясно из контекста абзаца, а вариации вида и числа (по крайней мере непредметных существительных) принципиального значения для понимания не играют.
Т.е. жесткий тест (точное восстановление исходных форм) в целом русские тексты не проходят, но имеющиеся варианты в большинстве случаев некритичны. Для достаточно абстрактных текстов. В "предметном" тексте невосстановимость числа очень сильная (если не знать достаточно хорошо внелингвистические факты).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sofunja@lj
2007-01-10 18:57 (ссылка)
1. Хотела написать примеры, но возникли следующие трудности: а) как все-таки писать слова, в том виде, как они в словаре? Тогда получается, что мы оставляем грамматические показатели= грамматические костыли. Или писать только основы? б) какое количество фраз достаточно для эксперимента? Правильно ли я понимаю, что одно предложение создает критическую ситуацию, т.е. смотря что мы выбирем. Степень попадания может быть очень велика, почти 100 % и очень мала
2. В связи с твоими разссуждениями о предметном и абстрактном тексте возникли следующие мысли: научный текст в таком эксперименте страдает меньше, чем художественный. Отсюда, если возвращаться к теме предыдущего обсуждения: научный текст менее подвержен искажениям при переводе со словарем и грамматикой. Хотя с другой стороны, мы тут упираемся еще в вопрос качества словаря. Существующие новогреческо-русские словари сильно искажают реальный новогреческий язык, поэтому все вынуждены пользоваться толковым новогреческим словарем. :( (Но это несколько в сторону от темы)
3. Думаю, что время-вид глагола уязвимы не только в русском, падеж в том случае, если он исключительно беспредложно выражается, число если оно не выражается отдельным словом будет пропадать всегда, при этом не понятно насколько это существенно.
4. А ты можешь привести в качестве примера какой-нибудь древнерусский текст без грамматических показателей?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fbmk@lj
2007-01-11 07:34 (ссылка)
Русские падежи в основном восстанавливаются по предикату и/или предлогу (хотя некоторые важные предлоги управляют несколькими падежами).
Локативные падежи в каких-нибудь финно-угорских, скорее всего, восстанавливаются плохо.
Конечно, взятое вне контекста предложение без морфологии ("Кто убить Джон Бенет?") не восстанавливается однозначно. В большинстве случаев контекст помогает. Но не всегда. Как раз в немецком, где морфология слабая, зато синтаксис чудовищный, в декабре я ломал голову над предложением, которое становилось понятным лишь после внимательного анализа окончаний.
Не, сейчас нет времени переписывать текст в начальной форме. Привести пример русского текста с предметными существительными, где без точных знаний о предметной области нельзя восстановить число, несложно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sofunja@lj
2007-01-11 17:05 (ссылка)
1. Прошу прощения, что повторяюсь, все-таки: а) как все-таки писать слова, в том виде, как они в словаре? Тогда получается, что мы оставляем грамматические показатели= грамматические костыли. Или писать только основы?
2. Приведи пример текста.
3. я кстати поняла, что могло бы сделать эксперимент нагляднее и чище: если бы в заглавном посте был текст без грамматических показателей и просьба его восстановить, а текста грамматически правильного не было бы. Он был бы дан в следующем посте для проверки. Хотя, может быть, я не до конца понимаю сам эксперимент, тогда хотелось бы узнать мнение хозяина журнала по этому поводу...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fbmk@lj
2007-01-13 12:35 (ссылка)
1. я бы писал как в словаре
2. На работе в черновиках остался.
3. всех заломало бы писать.

(Ответить) (Уровень выше)


[info]fbmk@lj
2007-01-11 09:42 (ссылка)
Да, научный текст можно читать почти без грамматики. Это я с самого начала написал.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kassian@lj
2007-01-11 19:36 (ссылка)
А художественный тем более (если только у тебя задача сделать художественный перевод, а не сдать домашнее чтение на экзамене :)

Т.к. хороший переводчик не делает подстрочник, а читает оригинал, а потом пишет свой текст "по мотивам" оригинала.
При этом омонимия (типа числа), к-рая бы не снималась более широким контекстом встречается очень редко.

(Ответить) (Уровень выше)


(Читать комментарии) -