Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет temmokan ([info]temmokan)
@ 2010-08-06 10:43:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение: calm
Музыка:Стук клавиш

Испытание богатого текста, или Сага о конверсии
В данном конкретном случае речь пойдёт о программах-конверторах, из формата в формат.

Тексты свои давно уже пишу и правлю в LyX. Всем хорош процессор, одно "но": преобразование из формата в формат работает безобразно - словом, как со всеми прочими текст- и документ-процессорами.

В конце концов, пришлось самому написать скрипт для конвертирования файлов .lyx в формат RTF. А потому огромная просьба ко всем, кто может скачать девяностокилобайтный архив - скачать, распаковать и попробовать открыть файл .rtf внутри вашим офисным приложением (AbiWord, Microsoft Word, OpenOffice Writer и т.д.). И посмотреть, нет ли там внутри странностей - нерусских букв, "битого" форматирования, прочего мусора. Затем сохранить, и вновь открыть той же программой - и посмотреть, что получится.

У меня под рукой оказалось не так много текст-процессоров, чтобы с уверенностью сказать, что конвертируется всё приемлемо. Если в принципе то, что получается, читабельно, я доведу конвертор до состояния, когда он перенесёт и стили, и всё прочее, что можно перенести.

Вот этот файл: n02s.zip (90 кб), в качестве "подопытного кролика" взята "Муза киберпанка". Если не сложно было проверить, оставьте комментарий и укажите, чем открывали и нормально ли читался файл.

Заранее огромное спасибо!

Обновление: вот другая версия того же файла, обработанная улучшенным вариантом конвертора: n02s-rtf.zip (90 кб).



(Добавить комментарий)


[info]leha_sparrow@lj
2010-08-06 01:13 (ссылка)
Ворд из 2003 офиса открыл, хоть и с небольшим скрипом. Читается нормально, форматирование на месте. В скобках замечу, что в качестве верстальщика я _такое_ форматирование считаю своим злейшим врагом. В самом ворде читать нормально, если бы я читала в ворде зачем-то.

(Ответить) (Ветвь дискуссии)


[info]leha_sparrow@lj
2010-08-06 01:15 (ссылка)
(перечитав сообщение, в ужасе) еще помимо этого стили????? Мать моя, женщина, ворд и так ругательски ругается на макросы несколько минут их преодолевает.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 01:46 (ссылка)
Стили в данном случае - это вот что:
- задание для параграфов кегля и цвета шрифта, всех прочих параметров (границы, фон и пр.)
- корректное преобразование нетекстовых элементов оформления (картинок)

Собственно, только это. О каких макросах речь? Насколько могу судить по RTF, там нет макро.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexrat@lj
2010-08-06 02:16 (ссылка)
+1 в RTF макросов нет и быть не может.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 02:18 (ссылка)
Нашёл Word 2007 - он загрузил файл без единого возражения. Кодировка задана не та (ASCII), но это я исправлю.

(Ответить) (Уровень выше)


[info]leha_sparrow@lj
2010-08-06 03:49 (ссылка)
Вот эти две вещи - ответ на твой предыдущий вопрос о кошмаре для верстака. Помимо этого - тройные дефисы вместо тире, отбивка строк, и прочее, то есть все то, что я вычищаю из текстов, прежде чем начать с ними работать, даже если речь идет о редактуре, а не о верстке.

Макросы, это, видимо, глюк моего ворда, он их находит вообще везде, я сейчас проверила, буду с этим бороться.

(Ответить) (Уровень выше)


[info]temmokan@lj
2010-08-06 01:44 (ссылка)
Стоп, Алёна, какое именно форматирование считаешь злейшим врагом?
Что не так? Модифицировать выход конвертора несложно.

Спасибо.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]leha_sparrow@lj
2010-08-06 03:53 (ссылка)
ответила в другом комменте.
Костя, текст для любой обработки хочется иметь чистый, без разных кеглей, с минимальными параграфическими элементами, без цвета, без разных начертаний, с отбивкой глав максимум - звездочками, цифрами и непрерывным переносом строки. То есть не абзац (enter), а shift+enter.
Извини.

(Ответить) (Уровень выше)

Word 2003
[info]alexrat@lj
2010-08-06 02:12 (ссылка)
Открылось нормально. Явных косяков: бредовая кодировка, "битое" форматирование и мусора, - не видно.
Хотя само форматирование наводит на размышления? А почему собственно?
Это так и задумано, что после каждого абзаца пустая строка? Или это косяк?
Это так и задумано, что все диалоги начинаются с трёх минусов? Или это косяк?
И почему:
--- Уже, - подтвердил Василий, уже совершенно автоматически ставящий автографы. - Но пока не скажу, о чём.
А не:
--- Уже, --- подтвердил Василий, уже совершенно автоматически ставящий автографы. --- Но пока не скажу, о чём.
Или что подразумевается под одним, двумя, тремя дефисами?

(Ответить) (Ветвь дискуссии)

Re: Word 2003
[info]temmokan@lj
2010-08-06 02:17 (ссылка)
Три дефиса - это то, что станет, в окончательной версии, длинным тире (mdash).
Два - коротким (ndash).

В начале прямой речи у меня длинное тире, дефис обрамляет слова автора. Все прочие тире в тексте короткие. Это тоже всё настраивается без парвки исходного текста.

Кодировка - в смысле бредовая? Что сообщает Word?

Пояснение: отступы, расстояния между параграфами - это то, что библитека-генератор выставляет по умолчанию. В следующей итерации исправлю и преобразование, и стили параграфа.

Спасибо!

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Word 2003
[info]alexrat@lj
2010-08-06 02:21 (ссылка)
А в русском языке есть понятия длинного и короткого тире? В школе всегда просто про тире говорили, но, имхо, авторская речь обязана обрамляться тире, а никак не дефисом. Нэ?
Битой кодировки нет. Что я называю битой кодировкой можно посмотреть на этом скриншоте: http://rathouse.ru/gfx/lj/screenshots/HitnikCN.png

Насчёт отступов. НИКАКОГО отступа после параграфа я не вижу. Вижу вставленную между параграфами пустую строку. Ты её называешь отступом?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Word 2003
[info]temmokan@lj
2010-08-06 02:28 (ссылка)
Похоже, разница в терминологии.
Тире в HTML есть минимум двух размеров: длины M ("—", entity —) и длины N ("–", entity –).

В конкретной типографике может использоваться любое в любой ситуации.

То же касается кавычек — в конце концов заменю их на двойные угловые (entity « и »)

Пустая стркоа - некоторое открытие. Добавил в список багов. Спасибо.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Word 2003
[info]alexrat@lj
2010-08-06 02:35 (ссылка)
Да, я в курсе, что в типографике два вида тире, но не знал, существуют ли какие-то правила, регламентирующие где какие надо ставить :) Раз нет правил, то и фиг с ними :)

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Word 2003
[info]leha_sparrow@lj
2010-08-06 03:55 (ссылка)
есть правила. Но тебе они не обязательны к исполнению, мне - обязательны, перед выводом на типографию.:)

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Word 2003
[info]temmokan@lj
2010-08-06 04:25 (ссылка)
Отвечаю на все три последних комментария здесь.

Я так понял, что вопрос так стоит: есть разметка, удобная для глаз,а есть - удобная для вёрстки. Верно?

Тройные дефисы и прочая типографика - это временное, к тому же легко настраиваемое.

Всё остальное можно сделать отдельной опцией (точнее, комплектом опций - профилем обработки), чтобы генерировать RTF, годный для тех или иных целей.

Если есть ещё что добавить к описанию, вас ист оптимальные виды разметки для вёрстки - добавь, сделаю такой профиль.

И к слову, а читать самой тебе что удобнее? Тоже без красной строки, разрывов между абзацами и пр.?

(выделением цветом, как помнишь, я никогда не баловался, да и курсивов с полужирным у меня кот наплакал)

(Ответить) (Уровень выше) (Ветвь дискуссии)

форматирование
[info]leha_sparrow@lj
2010-08-09 11:14 (ссылка)
Извини, замоталась.

Разметка, удобная для верстки, мне и для глаз предпочтительнее.
А именно минимальное оформление текста: красная строка, выделение важного капителью, все знаки препинания - штатные.
Все.
Под важным я подразумеваю заголовки, отбивку глав и пры. Можно в порядке исключения для заголовков применять выключку по центру. Остальное мне читать не удобно, как не удобно читать этот твой комментарий с увеличенными интервалами между строками.

В принципе, можно смириться с отбивкой между абзацами, но на самом деле это сильно НЕ удобно для чтения.

В общем случае, даже для стихов, включенных в текст, те же правила оформления, ни выключки по центру, ни табов - отступов от края полосы набора, ни прочих красивостей не требуется. Можно отодвинуть на строчку от основного текста - и все.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: форматирование
[info]temmokan@lj
2010-08-09 11:57 (ссылка)
Всё понимаю, у самого работы иногда на 26 часов в сутки.

Если найдёшь время, посмотри на второй вариант трансформации. Вроде основные "блохи" повыведены.

Не для себя в первую голову делаю - для тех, кому LyX ну никаким боком не привычен. Оттого и пристаю.

Спасибо!

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: форматирование
[info]leha_sparrow@lj
2010-08-09 12:02 (ссылка)
А, кстати, что это за редактор такой, я по ссылке сходила, но вникать было некогда, ответь в паре фраз, если можно, чем он тебе мил.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: форматирование
[info]temmokan@lj
2010-08-09 12:11 (ссылка)
Это всё тот же TeX Кнута. Вкратце: система вёрстки текста и документ-процессор в одном флаконе.

(Ответить) (Уровень выше)


[info]alexrat@lj
2010-08-06 02:23 (ссылка)
Ещё открыл файл OOo 3.1.1. Полёт нормальный. Что не удивительно :)

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 02:29 (ссылка)
Прежние версии именно он не желал открывать - не прощает ошибок форматирования. Что хорошо.

(Ответить) (Уровень выше)


[info]fhtagn_ussr@lj
2010-08-06 03:44 (ссылка)
Ubuntu 10.01
OOo 3.2.0
Все работает.

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 04:25 (ссылка)
Спасибо!

(Ответить) (Уровень выше)

Очень ценный тест
[info]gilgatech@lj
2010-08-06 06:04 (ссылка)
Вордом 2007))
Никаких кракозябр, кроме агриппин и аристархов нету. После сохранения тоже))

(Ответить) (Ветвь дискуссии)

Re: Очень ценный тест
[info]temmokan@lj
2010-08-06 06:24 (ссылка)
Mamma mia! А что стало с Аристархом?
И спасибо за помощь!

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]gilgatech@lj
2010-08-06 06:45 (ссылка)
Исписался. Вот вроде всё так, и слог радует, а книги в памяти не остаются. А звёзды линию и лабиринт я чёрт знает скоко раз перечитывал.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]temmokan@lj
2010-08-06 11:28 (ссылка)
А, понятно, о ком речь. Не думал, что будет прямая параллель - Бирюков в повести практически ничем не похож.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]gilgatech@lj
2010-08-06 11:50 (ссылка)
Определённая непоследовательность простительна молодым авторам).

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]temmokan@lj
2010-08-06 23:06 (ссылка)
С третьей стороны, зачем их сразу так баловать?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]olgeria@lj
2010-08-07 15:29 (ссылка)
так-так, соверш очевидно, что я тут что-то сильно пропустила...
мужчины порадуют меня прояснениями? или мне сразу топИться идти?
про аристархов еще раз и медленно, пожалуйста

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Очень ценный тест
[info]olgeria@lj
2010-08-07 15:31 (ссылка)
третья сторона! хи-хи!

(Ответить) (Уровень выше)

Re: Очень ценный тест
[info]temmokan@lj
2010-08-08 02:21 (ссылка)
Речь про персонажа повести, Аристарха Кальяненко. Я так понял, речь ведётся про отечественного писателя с рифмующейся фамилией.

(Ответить) (Уровень выше)


[info]morthan2006@lj
2010-08-06 13:43 (ссылка)
Нормально открылось OpenOffice.org pro 3.2.1. Несколько напрягает разделение абзацев пустыми строками. В LyX или TeX такое уместно (как и в моём любимом asciidoc), но при конвертации в RTF я бы, наверно, пустые строки убирал.

Ещё: почему в начале диалога длинное тире, а дальше обычное? Я везде ставлю длинное тире, за исключением диапазонов (там — короткое) и дефисов. И кавычки почему-то не типографские. Так было в оригинале или при конвертировании поплыло?

Кстати, попадался ли вам на глаза pandoc? Я им совсем недавно конвертировал свой ЖЖ в формат OpenOffice. :-)

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 23:05 (ссылка)
Пустые вставки я ликвидировал (в тексте заметки, чуть ниже, ссылка на новый вариант текста), это мой косяк. Похоже, библиотеку для создания RTF тоже придётся писать самому.

Кавычки и тире тоже теперь должны быть правильными. Правда, дефисы вокруг авторской речи ещё остались, но это уже сам исходник надо править.

pandoc попадался мне в поисках, но отзыв были противоречивыми. Главная пакость, что абсолютное большинство конверторов в RTF написаны людьми, только смутно понимающими, что бывают языки помимо английского. Как итог - "мусорный", набитый ненужными вставками конечный файл. Тот, что я делаю своим скриптом, как минимум читается пока что разными версиями Word/OO без запинок.

С третеьй стороны, заодно и Хаскель в памяти освежить. :)

(Ответить) (Уровень выше)


[info]kondrlan@lj
2010-08-06 13:53 (ссылка)
MS Word 2007
В конце каждого абзаца сначала разрыв строки, за ним собственно конец абзацы. (При наборе комбинация shift+enter и еще enter). Не уверена, баг это или так задумано.
Про тире уже сказали.
Все прочее в порядке.

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-06 22:55 (ссылка)
Спасибо. Я уже дополнил конвертор, в тексте заметки новый вариант того же файла, с учётом замечаний.

(Ответить) (Уровень выше)


[info]nut79@lj
2010-08-07 04:04 (ссылка)
Всё нормально.

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-07 09:35 (ссылка)
Спасибо!

(Ответить) (Уровень выше)


[info]olgeria@lj
2010-08-07 07:02 (ссылка)
исключительно приятно видеть чужое творчество там, откуда ушла.

без шуток и подначек. честно. исключительно приятно.
(может быть приятно потому, что ушла, когда мой смысл этого дела иссяк, - неважно!)

это как бы для хозяйки: какое счастье, что кто-то сварил борщ, и это не я!

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-07 09:40 (ссылка)
Спасибо на добром слове - а "откуда ушла" - это про что именно?

(Ответить) (Уровень выше) (Ветвь дискуссии)

про бывшую работу
[info]olgeria@lj
2010-08-07 15:21 (ссылка)
работа у меня раньше была такая: приборы:
железо+софт.
+высокая квалификация.

только это было давно и уже все совсем-совсем другое,
и смотрю на эту вершину... с другой высокой горы...

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: про бывшую работу
[info]temmokan@lj
2010-08-08 02:22 (ссылка)
Интересно. А как называется нынешняя вершина?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: про бывшую работу
[info]olgeria@lj
2010-08-08 04:10 (ссылка)
- так до вершинки-то еще ползти и ползти, как и любому мастеру... - - социального названия не видела... возможно потому, что названий не ищу, времени на поиск жалко...
- описание есть, получила вчера, здесь не пишу, а то будет очень нагло выглядеть, у меня на стеночке вконт можешь прочесть, пока не потерла

(Ответить) (Уровень выше)

Обновление
[info]leha_sparrow@lj
2010-08-09 11:16 (ссылка)
Существенно лучше.

(Ответить) (Ветвь дискуссии)

Re: Обновление
[info]temmokan@lj
2010-08-09 11:57 (ссылка)
Спасибо. Что ещё мешает или можно было бы улучшить?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Обновление
[info]leha_sparrow@lj
2010-08-09 12:04 (ссылка)
Для удобства чтения, можно каким-то образом обработать мягкие переносы. Их наличие, я имею в виду. Если это возможно. Для верстки - все нормально.

(Ответить) (Уровень выше)

Re: Обновление
[info]leha_sparrow@lj
2010-08-09 12:05 (ссылка)
а лучше все оставить как есть - хорошо получилось

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Обновление
[info]temmokan@lj
2010-08-09 12:12 (ссылка)
OK, тогда пока пусть так остаётся.

По поводу мягких переносов посмотрю в любом случае.

(Ответить) (Уровень выше)


[info]dropinweb@lj
2010-08-09 14:51 (ссылка)
Доброго времени суток!
Открыл в Abiword, Debian.

Открылся нормально, сразу. Вопросы по типографике:
1) Длинное тире в начале диалога - там, вроде бы, короткое должно быть?
(Сейчас покопался в Википедии - в начале диалогов ставится тоже длинное, но я уже как-то привык в макетах книг делать вначале именно короткое - имхо, эстетичнее длинного)
2) Соответственно, короткое внутри текста и дефис после знаков препинания - имхо, длинное тире...
(Опять же, попробуйте между точкой (запятой) и длинным пробелом НЕ ставить пробела - оно, конечно, может быть и не правилам, но намного красивше...)
3) Три точки вместо многоточия. Это, конечно, достаточно спорный момент, но мне, например, очень нравится именно цельное многоточие вместо трёх точек.
4) У разделитель частей (три дефиса через пробелы), может быть, есть смысл добавить отступы до и после. Также и у цифирок-начал глав. Только у них перед - больше, а после - меньше.

Ещё по мелочи - выключка текста слева, висящие кое-где слова...

(Ответить) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-09 21:40 (ссылка)
Спасибо, что нашли время проверить!

1. Вот тут спорный момент. Поставить любое из них несложно; я, в свою очередь. привык к длинному.
2. Дефис вокруг авторской речи надо заменить на тире, тут не спорю - это не для конвертора задача, а задача правки исходного текста.
3. Тут буду отстаивать три точки - визуально они просто лучше заметны, чем многоточие одним символом (…, …)
4. Подумываю, не заменить ли дефисы там повсюду на звёздочки. Как минимум, заметнее.

Выключка текста - что именно имеется в виду? Висящие слова - надо пристальнее глянуть, это может быть дефект исходного файла.

Спасибо!

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]dropinweb@lj
2010-08-10 02:01 (ссылка)
В русской традиции, имхо, делать выравнивание текста по ширине, а у Вас в файле - по левому краю... :)

2) Наверное, регулярным выражением поправить?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]temmokan@lj
2010-08-10 13:57 (ссылка)
По ширине - justify? Это совсем легко сделать.

Регулярным, точно. Ну, двумя максимум.

(Ответить) (Уровень выше)