lqp - Коллекция анти-юникодных ссылок
June 1st, 2006
03:01 am

[Link]

Previous Entry Add to Memories Tell A Friend Next Entry
Коллекция анти-юникодных ссылок

(35 comments | Leave a comment)

Comments
 
From:[info]lqp
Date:June 1st, 2006 - 07:25 pm
(Link)
Разницу между "все" и "любые" понимаете? Это во первых.

Во вторых, Вы требуете от компьютера (приложения, операционной системы) не то что неестестенного интеллекта, а прямо таки волшебства. Откуда может компьютер знать, каким именно шрифтом какой именно текст отображать, если ни про тот, ни про другой ему ничегошеньки неизвестно? На обоих наклеена одна и та же этикетка "utf-8".
From:[info]mithgol.ru
Date:June 2nd, 2006 - 06:33 am

Это что, шутка такая?

(Link)
Разумѣется, компьютеръ (приложенiе, операцiонная система) просто прочтётъ заголовокъ шрифтоваго файла и узнáетъ оттуда, какiе сѵмволы (глифы, кодовыя позицiи) въ шрифтѣ представлены. Напримѣръ, тотъ Firefox, въ которомъ я сейчасъ пишу, прекрасно справляется съ задачей вытаскиванiя разныхъ сѵмволовъ изъ разныхъ шрифтовъ при отображенiи текста Всемiрной Паутины.
From:[info]lqp
Date:June 9th, 2006 - 10:43 pm

Re: Это что, шутка такая?

(Link)
ну так в заголовке шрифтового файла будет написано везде - utf8. Это сейчас там написано разное.
[User Picture]
From:[info]dmitri83
Date:June 2nd, 2006 - 03:10 pm
(Link)
Нужен будет маркап, который будет говорить, что это таким-то шрифтом печатать, а это таким-то. Это даже если вы без юникода решите обойтись.

А какие альтернативные решения? какая-то кодировка нужна. лучше, если она будет ещё и стандартной.

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками для разных скриптов, с пометками: "ага, сейчас начнётся koi8-r", "ага, сейчас начнётся iso-8859-8".
From:[info]netch
Date:June 2nd, 2006 - 08:43 pm
(Link)
Ну вообще-то такое давно есть: точное название стандарта не назову, но ISO. Пометки реализуются как esc-последовательности ansi-стиля.
Другой вопрос, что пользоваться этим мало кто научился.
[User Picture]
From:[info]dmitri83
Date:June 2nd, 2006 - 09:19 pm
(Link)
iso-2022-jp

что интересно, в Японии им действительно пользуются.
From:[info]netch
Date:June 10th, 2006 - 09:24 am
(Link)
Похоже, не совсем ISO 2022 - в нём есть только фиксированный набор кодовых последовательностей для кодировок, а я где-то видел упоминание стандартной последовательности которая включала в себя текстовое наименование кодировки.
Но направление действительно то.
From:[info]lqp
Date:June 9th, 2006 - 10:23 pm
(Link)
Нужен будет маркап

Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками

А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.
From:[info]netch
Date:June 10th, 2006 - 08:15 am
(Link)
> Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Вы расскажите каким именно образом этот маркап сейчас "есть". Например, я вытаскиваю с альдебарана какой-нибудь fb2 в зипе. Где написано, какая кодировка текста? Она там 1251, но где это видно?

>> "Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками"

> А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.

Да, это тоже метод. Но проблема в том, что стандартизировать общее пространство символов оказалось легче, чем коды переключения в пределах уже существующего пространства, в котором они могут быть заняты на что-то другое. Чтобы избежать коллизии кодов - надо заранее договориться что разбирается поток с определёнными переключателями. Пример - SCSU. Но он в отличие от обычных UTF'ов тяжело идентифицируется.
Powered by LJ.Rossia.org