|
lqp - Коллекция анти-юникодных ссылок
[Recent Entries][Archive][Friends][User Info]
03:01 am
[Link] |
Коллекция анти-юникодных ссылок
|
|
| |
| From: | lqp |
| Date: | June 1st, 2006 - 07:25 pm |
|---|
| | | (Link) |
|
Разницу между "все" и "любые" понимаете? Это во первых.
Во вторых, Вы требуете от компьютера (приложения, операционной системы) не то что неестестенного интеллекта, а прямо таки волшебства. Откуда может компьютер знать, каким именно шрифтом какой именно текст отображать, если ни про тот, ни про другой ему ничегошеньки неизвестно? На обоих наклеена одна и та же этикетка "utf-8".
| | Это что, шутка такая?
| (Link) |
|
Разумѣется, компьютеръ (приложенiе, операцiонная система) просто прочтётъ заголовокъ шрифтоваго файла и узнáетъ оттуда, какiе сѵмволы (глифы, кодовыя позицiи) въ шрифтѣ представлены. Напримѣръ, тотъ Firefox, въ которомъ я сейчасъ пишу, прекрасно справляется съ задачей вытаскиванiя разныхъ сѵмволовъ изъ разныхъ шрифтовъ при отображенiи текста Всемiрной Паутины.
| From: | lqp |
| Date: | June 9th, 2006 - 10:43 pm |
|---|
| | Re: Это что, шутка такая? | (Link) |
|
ну так в заголовке шрифтового файла будет написано везде - utf8. Это сейчас там написано разное.
Нужен будет маркап, который будет говорить, что это таким-то шрифтом печатать, а это таким-то. Это даже если вы без юникода решите обойтись.
А какие альтернативные решения? какая-то кодировка нужна. лучше, если она будет ещё и стандартной.
Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками для разных скриптов, с пометками: "ага, сейчас начнётся koi8-r", "ага, сейчас начнётся iso-8859-8".
| From: | netch |
| Date: | June 2nd, 2006 - 08:43 pm |
|---|
| | | (Link) |
|
Ну вообще-то такое давно есть: точное название стандарта не назову, но ISO. Пометки реализуются как esc-последовательности ansi-стиля. Другой вопрос, что пользоваться этим мало кто научился.
iso-2022-jp
что интересно, в Японии им действительно пользуются.
| From: | netch |
| Date: | June 10th, 2006 - 09:24 am |
|---|
| | | (Link) |
|
Похоже, не совсем ISO 2022 - в нём есть только фиксированный набор кодовых последовательностей для кодировок, а я где-то видел упоминание стандартной последовательности которая включала в себя текстовое наименование кодировки. Но направление действительно то.
| From: | lqp |
| Date: | June 9th, 2006 - 10:23 pm |
|---|
| | | (Link) |
|
Нужен будет маркап
Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?
Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками
А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.
| From: | netch |
| Date: | June 10th, 2006 - 08:15 am |
|---|
| | | (Link) |
|
> Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?
Вы расскажите каким именно образом этот маркап сейчас "есть". Например, я вытаскиваю с альдебарана какой-нибудь fb2 в зипе. Где написано, какая кодировка текста? Она там 1251, но где это видно?
>> "Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками"
> А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.
Да, это тоже метод. Но проблема в том, что стандартизировать общее пространство символов оказалось легче, чем коды переключения в пределах уже существующего пространства, в котором они могут быть заняты на что-то другое. Чтобы избежать коллизии кодов - надо заранее договориться что разбирается поток с определёнными переключателями. Пример - SCSU. Но он в отличие от обычных UTF'ов тяжело идентифицируется.
|
|