lqp - Коллекция анти-юникодных ссылок

[Recent Entries][Archive][Friends][User Info]

June 1st, 2006

03:01 am

[Link]

Коллекция анти-юникодных ссылок

(35 comments | Leave a comment)

Comments

From:	lqp
Date:	June 1st, 2006 - 07:25 pm

(Link)

Разницу между "все" и "любые" понимаете? Это во первых.

Во вторых, Вы требуете от компьютера (приложения, операционной системы) не то что неестестенного интеллекта, а прямо таки волшебства. Откуда может компьютер знать, каким именно шрифтом какой именно текст отображать, если ни про тот, ни про другой ему ничегошеньки неизвестно? На обоих наклеена одна и та же этикетка "utf-8".

(Reply to this) (Parent) (Thread)

From:	mithgol.ru
Date:	June 2nd, 2006 - 06:33 am

Это что, шутка такая?

(Link)

Разумѣется, компьютеръ (приложенiе, операцiонная система) просто прочтётъ заголовокъ шрифтоваго файла и узнáетъ оттуда, какiе сѵмволы (глифы, кодовыя позицiи) въ шрифтѣ представлены. Напримѣръ, тотъ Firefox, въ которомъ я сейчасъ пишу, прекрасно справляется съ задачей вытаскиванiя разныхъ сѵмволовъ изъ разныхъ шрифтовъ при отображенiи текста Всемiрной Паутины.

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 9th, 2006 - 10:43 pm

Re: Это что, шутка такая?

(Link)

ну так в заголовке шрифтового файла будет написано везде - utf8. Это сейчас там написано разное.

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 03:10 pm

(Link)

Нужен будет маркап, который будет говорить, что это таким-то шрифтом печатать, а это таким-то. Это даже если вы без юникода решите обойтись.

А какие альтернативные решения? какая-то кодировка нужна. лучше, если она будет ещё и стандартной.

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками для разных скриптов, с пометками: "ага, сейчас начнётся koi8-r", "ага, сейчас начнётся iso-8859-8".

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 2nd, 2006 - 08:43 pm

(Link)

Ну вообще-то такое давно есть: точное название стандарта не назову, но ISO. Пометки реализуются как esc-последовательности ansi-стиля.
Другой вопрос, что пользоваться этим мало кто научился.

(Reply to this) (Parent) (Thread)

From:	dmitri83
Date:	June 2nd, 2006 - 09:19 pm

(Link)

iso-2022-jp

что интересно, в Японии им действительно пользуются.

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 10th, 2006 - 09:24 am

(Link)

Похоже, не совсем ISO 2022 - в нём есть только фиксированный набор кодовых последовательностей для кодировок, а я где-то видел упоминание стандартной последовательности которая включала в себя текстовое наименование кодировки.
Но направление действительно то.

(Reply to this) (Parent)

From:	lqp
Date:	June 9th, 2006 - 10:23 pm

(Link)

Нужен будет маркап

Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками

А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 10th, 2006 - 08:15 am

(Link)

> Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Вы расскажите каким именно образом этот маркап сейчас "есть". Например, я вытаскиваю с альдебарана какой-нибудь fb2 в зипе. Где написано, какая кодировка текста? Она там 1251, но где это видно?

>> "Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками"

> А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.

Да, это тоже метод. Но проблема в том, что стандартизировать общее пространство символов оказалось легче, чем коды переключения в пределах уже существующего пространства, в котором они могут быть заняты на что-то другое. Чтобы избежать коллизии кодов - надо заранее договориться что разбирается поток с определёнными переключателями. Пример - SCSU. Но он в отличие от обычных UTF'ов тяжело идентифицируется.

(Reply to this) (Parent)