lqp - Коллекция анти-юникодных ссылок
[Recent Entries][Archive][Friends][User Info]
03:01 am
[Link] |
Коллекция анти-юникодных ссылок Юрий Ревич. Полный CHARSET. 1,2,3
tiphareth. Программа против современности.
Павел Кармышев. “Проблема кодировок”: стечение обстоятельств или стратегический замысел?
Norman Goundry. Why Unicode Won’t Work on the Internet: Linguistic, Political, and Technical Limitations
Suzanne Topping. The secret life of Unicode
Steven J. Searle. A Brief History of Character Codes. Steven J. Searle. Unicode Revisited
Unicode in Japan: Guide to a technical and psychological struggle
будет пополняться по мере нахождения.
|
|
|
"Не пишите законов, пишите код" (ц) В этом смысле юникод пока всех заруливает. Ибо единообразен.
Это кошмар, какому количеству людей, оказывается, делать нечего. А я вот у себя в офисе вдруг обнаружил, что я -- единственный из восьми наших сотрудников, у кого локаль KOI8-R. У остальных -- UTF-8. Так-то.
From: | lqp |
Date: | June 1st, 2006 - 01:56 pm |
---|
| | | (Link) |
|
Давайте я подогадываюсь. Остальные - западноевропейцы, которым символы за пределами таблицы US-ASCII (являющейся подмножеством UTF8) нужны редко и помалу. Не так ли?
Не-а. Остальные -- русские. ru_RU.UTF-8.
(почитав японцев) а вообще, резонный вопрос - почему в Уникоде нет готических символов. Ведь в тексте, где одновременно присутствуют как готические символы, так и обычные, как правило, их начертание несёт в себе смысл.
А какое отношение внешний вид символов имеет к кодировке? Читал того же Ревича - и обалдевал. Каша какая-то... Какое отношение к кодировке имеет формат шрифтов? Зачем пихать в один файл шрифта все имеющиеся в кодировке символы? Кто мешает один диапазон символов держать в одном файле, другой (если он вообще понадобится на конкретном компьютере) - в другом? Это проблемы отображалки, а не кодировки. Ну не идеален юникод (особенно в виде utf-8), но есть ли из чего выбирать?
From: | lqp |
Date: | June 1st, 2006 - 01:35 pm |
---|
| | | (Link) |
|
Формат шрифтов имеет отношение самое прямое.
Юникод претендует - в качестве основного своего достоинства - на то, что он позволяет одновременно работать с символами любых языков. Без этой, громокласно заявляемой возможности - он нафиг никому не нужен за такую цену. Так вот оказывается это - вранье. Ибо шрифты.
Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!
Кроме шрифтов есть и другие вещи, скажем сортировка, с подобными же проблемами с юникодом.
Эхехех... Во первых, сомнительно, что может понадобиться одновременно отображать все символы юникода (которых сейчас, ЕМНИМС, более миллиона). Тем более, что в существующем наборе символов юникода не только алфавиты "живых" языков. Во вторых, повторяю, как именно отобразить N символов одновременно - проблема не кодировки, а приложения (или операционной системы). Кодировка только описывает, как именно текст хранится. С сортировкой проблем не больше, чем с той же КОИ-8 (в которой символы идут не в алфавитном порядке). Ну, будет весовая таблица толще, только и всего...
From: | lqp |
Date: | June 1st, 2006 - 07:25 pm |
---|
| | | (Link) |
|
Разницу между "все" и "любые" понимаете? Это во первых.
Во вторых, Вы требуете от компьютера (приложения, операционной системы) не то что неестестенного интеллекта, а прямо таки волшебства. Откуда может компьютер знать, каким именно шрифтом какой именно текст отображать, если ни про тот, ни про другой ему ничегошеньки неизвестно? На обоих наклеена одна и та же этикетка "utf-8".
| | Это что, шутка такая?
| (Link) |
|
Разумѣется, компьютеръ (приложенiе, операцiонная система) просто прочтётъ заголовокъ шрифтоваго файла и узнáетъ оттуда, какiе сѵмволы (глифы, кодовыя позицiи) въ шрифтѣ представлены. Напримѣръ, тотъ Firefox, въ которомъ я сейчасъ пишу, прекрасно справляется съ задачей вытаскиванiя разныхъ сѵмволовъ изъ разныхъ шрифтовъ при отображенiи текста Всемiрной Паутины.
From: | lqp |
Date: | June 9th, 2006 - 10:43 pm |
---|
| | Re: Это что, шутка такая? | (Link) |
|
ну так в заголовке шрифтового файла будет написано везде - utf8. Это сейчас там написано разное.
Нужен будет маркап, который будет говорить, что это таким-то шрифтом печатать, а это таким-то. Это даже если вы без юникода решите обойтись.
А какие альтернативные решения? какая-то кодировка нужна. лучше, если она будет ещё и стандартной.
Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками для разных скриптов, с пометками: "ага, сейчас начнётся koi8-r", "ага, сейчас начнётся iso-8859-8".
From: | netch |
Date: | June 2nd, 2006 - 08:43 pm |
---|
| | | (Link) |
|
Ну вообще-то такое давно есть: точное название стандарта не назову, но ISO. Пометки реализуются как esc-последовательности ansi-стиля. Другой вопрос, что пользоваться этим мало кто научился.
iso-2022-jp
что интересно, в Японии им действительно пользуются.
From: | netch |
Date: | June 10th, 2006 - 09:24 am |
---|
| | | (Link) |
|
Похоже, не совсем ISO 2022 - в нём есть только фиксированный набор кодовых последовательностей для кодировок, а я где-то видел упоминание стандартной последовательности которая включала в себя текстовое наименование кодировки. Но направление действительно то.
From: | lqp |
Date: | June 9th, 2006 - 10:23 pm |
---|
| | | (Link) |
|
Нужен будет маркап
Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?
Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками
А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.
From: | netch |
Date: | June 10th, 2006 - 08:15 am |
---|
| | | (Link) |
|
> Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?
Вы расскажите каким именно образом этот маркап сейчас "есть". Например, я вытаскиваю с альдебарана какой-нибудь fb2 в зипе. Где написано, какая кодировка текста? Она там 1251, но где это видно?
>> "Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками"
> А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.
Да, это тоже метод. Но проблема в том, что стандартизировать общее пространство символов оказалось легче, чем коды переключения в пределах уже существующего пространства, в котором они могут быть заняты на что-то другое. Чтобы избежать коллизии кодов - надо заранее договориться что разбирается поток с определёнными переключателями. Пример - SCSU. Но он в отличие от обычных UTF'ов тяжело идентифицируется.
From: | netch |
Date: | June 2nd, 2006 - 08:24 am |
---|
| | | (Link) |
|
> Юникод претендует - в качестве основного своего достоинства - на то, что он позволяет одновременно работать с символами любых языков.
Правильно. И что противоречит отсутствию готических символов, если они полностью совпадают с латинскими и отличие только в шрифте? Более того, при существовании исторических промежуточных начертаний между готическими и классическими латинскими? Их тоже отражать?
Юникод действительно разрабатывался передавать разные символы. А не шрифты.
> Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!
Этого совсем не понял. Как это нельзя (йок)? Шрифт можно и сейчас выбирать, он не будет нести в себе признака кодировки, но это и лучше - меньше будет путаницы.
> Кроме шрифтов есть и другие вещи, скажем сортировка, с подобными же проблемами с юникодом.
И какие проблемы у юникода с сортировкой по сравнению с другими кодировками? Отдельный collating надо делать в любом случае. Например, ни одна из известных русских кодировок не содержит "Ё" в основном алфавите на нужном месте (чтобы код был больше "Е" но меньше "Ж"). И что, это мешает сортировать? А если требования к сортировке разные? Например, русский алфавит заканчивается на ЬЭЮЯ, украинский - на ЮЯЬ, таким образом сортировка для них будет различной и объединить это никак нельзя (разве что делать различные кодовые страницы для русского и украинского - Вы представляете себе что будет если пойти по этому пути?). Аналогичные проблемы есть в европейских языках.
Да, юникод в чём-то несовершенен. Но если сопоставить полный набор проблем и применённые методы решения, сравнить с другими решениями - он всё равно оказывается лучшим выходом для >90% применений (в условиях возможной смеси языков) и применённые решения - последовательными и логичными. Из приведённых ссылок по критике юникода - ни одна не рассматривала вопрос логично, последовательно и сравнивая с другими решениями по всем параметрам, не анализировала аргументы принятых или отвергнутых решений. По-моему, это не критика, а критиканство, pardon my french;)
From: | (Anonymous) |
Date: | June 4th, 2006 - 04:16 pm |
---|
| | | (Link) |
|
vladekk@lj
Согласен
Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!
Фонтсетами, фонтсетами.
Представте себе, как в будущем вот нет на машине, скажем, шрифта для бирманского языка и соответствующие символы показываются в виде ссылок, жмёшь на них, а система тебе предлагает скачать бирманские шрифты.
Это проблема не из-за юникода, а из-за того, что мир сложен.
From: | lqp |
Date: | June 9th, 2006 - 10:27 pm |
---|
| | | (Link) |
|
Ну так фонтсеты именно потому сейчас еще и возможны - что большинство шрифтов - неюникодные и, соответственно содержат информацию о предоставляемом наборе символов.
каким образом вы собираетесь узнавать, что этот вот файл, у которого указана как utf-8, на самом деле -"бирманские шрифты"?
есть, U+010330 - U+01034A
хоть и не в BMP
From: | netch |
Date: | June 2nd, 2006 - 08:12 am |
---|
| | | (Link) |
|
Большинство ссылок старые и слабоактуальные на сейчас и отражают в основном проблемы тех времён когда ряд фирм говорил "Unicode - это то в чём 16 бит, а всё остальное - что-то другое". По состоянию на сейчас это вряд ли актуально - и давно уже вышли за пределы 2^16 символов, и стандарт гласит и про UCS-4, и про UTF-32 во всех видах. Неприятнее всего застрявший в старом состоянии - Java, вот это действительно неудобно для восточных письменностей (нам проще).
Политико-административные соображения тут более интересны. Действительно, местами консорциум руководствуется своими соображениями и чего-то вполне полезного и осмысленного не приемлет. Например, на кириллической странице есть древнекириллические символы (включая лигатуры вроде IE), но одной нету (не помню - не то IA не то IEn, т.е. йотированного юса малого). Ну пропустили. Через несколько лет думаю появится - когда пройдёт стандартный цикл комитетов.
С восточными языками обстановка та, что в первую очередь проходят базовые наборы символов и чем проще символьный набор, тем легче ему пройти. Буквенные письменности вроде вошли уже все, слоговые - в основном. Иероглифические - имеют проблемы в том, сколько и каких символов вводить: рассказ про 70000 символов в китайском или японском - ближе к сказке, чем к реальности, потому что из этих символов подавляющее большинство было использовано в 1-2 источниках:) Комплект минимально необходимой грамотности (чтобы читать/писать газеты и техническую литературу) не выходит за 5000 символов, и насколько я помню он есть в первых 2^16. А остальные - имеет ли смысл добавлять все из тех 40000-70000, которые встречались во всей известной письменности? Сильно сомневаюсь. В крайних случаях можно и картинку притащить:) и это будет ничуть не хуже, чем картинка для какого-нибудь суперхитрого начертания буквы, которым отличился автор древнерусской летописи.
From: | lqp |
Date: | June 9th, 2006 - 10:42 pm |
---|
| | | (Link) |
|
Все проблемы дизайна - они политико-административные. Что поднапрягшись и зажав нос, юникод возможно реализовать - вог всяком случае теоретически - у меня сомнений нет. Вопрос - зачем? Он не решает никаких проблем, кроме тех, которые сам же и создает. Через несколько лет думаю появится - когда пройдёт стандартный цикл комитетов.
Вот это проблема номер раз. "А ты бей челом барину - барин и смилостивится". Всеобщая юникодизация означает доверие самопровозглашенному комитету с явно политиканствующими членами. Причем, обрати внимание - доверие не к наличному результату его работы, а к комитету как таковому, к тому, чего они там нарешают в будущем. застрявший в старом состоянии - Java, Совершенно верно. И это будет циклически повторятся - с каждым новым расширением юникода старный софт - и в особенности - шрифты - становятся неадекватным. есть в первых 2^16 А это вопрос второй (или третий?) UTF8 совершенно недвусмысленно делит человечество на людей первого (американцы), второго (европейцы, евреи, не слишком грамотные японцы) и четвертого сорта.
From: | netch |
Date: | June 9th, 2006 - 11:13 pm |
---|
| | | (Link) |
|
> Все проблемы дизайна - они политико-административные. Что поднапрягшись и зажав нос, юникод возможно реализовать - вог всяком случае теоретически - у меня сомнений нет. Вопрос - зачем? Он не решает никаких проблем, кроме тех, которые сам же и создает.
Он решает проблему создания и использования единого кодового пространства. Надеюсь, вопрос о смысле единого кодового пространства не возникнет?
> Совершенно верно. И это будет циклически повторятся - с каждым новым расширением юникода старный софт - и в особенности - шрифты - становятся неадекватным.
Это говорит только о том что где-то применён локальный неудачный дизайн. Например, шрифты - а накойхер одномуфайлу шрифтов описывать всё кодовое пространство? Это как раз изначально подход восьмибитных кодировок, и если кто-то такое применил - он сам себе злобный баклан. Для юникода должны быть возможности определить "вот этот файл - фонт Zyxelides для 0-7ff" и "а вот этот - Zyxelides для старокитайского" и чтобы система выбирала, к которому обращаться.
А какое дальше UCS-4 циклическое расширение может быть? Да никакого. Фактически символов всех видов всех языков не будет более пары сотен тысяч. Если бы у нас были байты по 10 бит, можно было бы обойтись двумя такими байтами. Но они меньше - получается 3 или 4 (по двоичной иерархии). И дальше расширяться в этом направлении некуда. Так что следующего цикла не будет...
> UTF8 совершенно недвусмысленно делит человечество на людей первого (американцы), второго (европейцы, евреи, не слишком грамотные японцы) и четвертого сорта.
Ну если так считать, то и шестой сорт будет. Но я с подсчётом не согласен. Если в языке 70 тысяч символов (не верю), как он может влезть в 16 бит? Это невозможно в принципе. Или подсчитайте количество символов латиницы со всякими диакритиками всех видов. Сколько получилось? И это всё всунуть в 128?
В общем, не могу я тут с Вами согласиться.
По существу критка unicode только в статьях suzanne topping и последней, "Unicode in Japan: ...". По остальным ссылкам критикуют Unicode-enabled программы, которые плохо работают.
Ну да, даже два года назад заусенцев с поддержкой юникода на среднестатистическом linux-е было гораздо больше. А пять лет назад и подавно. Сейчас-то куда лучше дела обстоят.
From: | lqp |
Date: | June 2nd, 2006 - 07:38 pm |
---|
| | | (Link) |
|
Разумеется. Юникодные программы плохо работают. Практически без исключений. А Вы полагали, что речть пойдет о чем-нибудь другом? О сакральном смысле числа 65536 или вз
Ну так а почему они плохо работают? Вы полагаете что вследствии случайного стечения обстоятельств?
From: | netch |
Date: | June 2nd, 2006 - 08:48 pm |
---|
| | | (Link) |
|
Вследствие того что любая программная разработка очень медленна. Об этом ещё Брукс писал. Сейчас IT технологии - любые! - становятся более-менее причёсанными и устойчивыми тогда, когда или подошли к моральному устареванию (это ещё хороший случай), или перешли этот порог (плохой, но более реальный). Почему Юникод должен быть исключением?
Барабанная дробь: они хорошо работают. У меня полтора года уже локаль en_US.UTF-8 и всё окей, всё работает out of the box, если вам интересно. Это пять лет назад не работали, а сейчас работают. В сторону: а под windows NT вообще в 1996-м году ещё был ucs и можно было в notepad-е писать одновременно на урду и иврите.
From: | (Anonymous) |
Date: | June 4th, 2006 - 04:23 pm |
---|
| | | (Link) |
|
Хорошо они работают, и с каждым годом ситуация лучше и лучше.
Можно спокойно писать e-mail одновременно с латышским, русским и английским словами.
И сайты можно делать - php тоже уже довольно неплохо поддерживает юникод, а в php6 вообще он будет встроен.
И даже мой mp3 плеер, купленный в США в тегах(кое-как сделанных по сути) IDv2 поддерживает юникод очень даже хорошо
Vladekk@lj
From: | lqp |
Date: | June 9th, 2006 - 10:45 pm |
---|
| | | (Link) |
|
Вы не поверите - все то же самое все остальные делают уже лет 15 безо всякого юникода! 8-)
From: | netch |
Date: | June 9th, 2006 - 11:16 pm |
---|
| | | (Link) |
|
Я тоже не поверю. Каким именно образом они обеспечивают пояснение, что вот тут название на латышском, а тут на русском? Прошу показать последовательность кодов.
Чтобы раньше на одной странице был латышский и русский - такого не видел не разу. Я лично не знаю, как это технически можно сделать, и очевидно, что никто не знал, даже если можно. Сейчас - легко и с песней, в UTF-8.
mp3 плейеры требуют указания кодировок вручную (что нетривиально для простых пользователей), причём содержат нужные только для своих рынков. А плейер, предназначеный для нелюбимых вами американцев, сразу без проблем отображает русские тэги. Специально проверил - он отображает сразу и латышские и даже русские и латышские в одном месте СРАЗУ. Мне кажется, тезис о людях второго сорта получается несостоятельным. Раньше всё бы насильно латинизировалось и он бы не показывал ни русских ни латышских букв. А сейчас можно указать названия или авторов международной песни сразу на родных языках, причём даже в Америке.
Далее. Э-письма все вечно писали с двойными буквами вместо гарумзиме (указание долготы гласной - ā, ē, ī), пока юникод не распространился. Уж незнаю, как там дело с реализацией, но то, что раньше никто не писал по-человечески емейлы на латышском - факт. То есть в данных конкретных случаях он хорош хотя бы тем, что покончил с разнобоем кодировок и софта, и насильно утвердил единый подход. Все новые средства работают с юникодом легко и непринуждённо, по крайней мере если язык простой с обычным алфавитом, незнаю насчёт left-to-right и иероглифов. Думаю, в utf-8 (и ucs-4)с ними тоже неплохо Когда юникод станет нормой, жить будет сильно легче - не придётся шаманить с кодировками (в интернете в е-книгах до сих пор встречается CP866) и думать, что же и где указывать.
А что "инструкции для конечного автомата" - мне кажется, нет особой нужды делать так, чтобы байты человек в уме мог переводить в символы. Да это по сути тоже инструкция, хоть и попроще.
Уровень образованности противников Unicode восхищает. Когда tiphareth записывает японцев и китайцев в неразвитые народы (это японцев-то с их Sony, Mitsubitsi Toyota и др, которые чуть не разорили автомобильную промышленность США) становится понятным, что это не те люди, которые способны в тексте на русском языке употребить французскую цитату.
А статью тифарета даже обсуждать не хочется. У него везде заговоры, грязь и мрази. По сути и аргументам она мне тоже кажется неверной и демагогической |
|