lqp - Коллекция анти-юникодных ссылок

[Recent Entries][Archive][Friends][User Info]

June 1st, 2006

03:01 am

[Link]

Коллекция анти-юникодных ссылок
Юрий Ревич. Полный CHARSET. 1,2,3

tiphareth. Программа против современности.

Павел Кармышев. “Проблема кодировок”: стечение обстоятельств или стратегический замысел?

Norman Goundry. Why Unicode Won’t Work on the Internet: Linguistic, Political, and Technical Limitations

Suzanne Topping. The secret life of Unicode

Steven J. Searle. A Brief History of Character Codes.
Steven J. Searle. Unicode Revisited

Unicode in Japan: Guide to a technical and psychological struggle

будет пополняться по мере нахождения.

(35 comments | Leave a comment)

Comments

From:	9000.livejournal.com
Date:	May 31st, 2006 - 09:00 pm

(Link)

"Не пишите законов, пишите код" (ц)
В этом смысле юникод пока всех заруливает. Ибо единообразен.

(Reply to this)

From:	sighup.livejournal.com
Date:	May 31st, 2006 - 09:28 pm

(Link)

Это кошмар, какому количеству людей, оказывается, делать нечего.
А я вот у себя в офисе вдруг обнаружил, что я -- единственный из восьми
наших сотрудников, у кого локаль KOI8-R. У остальных -- UTF-8.
Так-то.

(Reply to this) (Thread)

From:	lqp
Date:	June 1st, 2006 - 01:56 pm

(Link)

Давайте я подогадываюсь. Остальные - западноевропейцы, которым символы за пределами таблицы US-ASCII (являющейся подмножеством UTF8) нужны редко и помалу. Не так ли?

(Reply to this) (Parent) (Thread)

From:	sighup.livejournal.com
Date:	June 1st, 2006 - 03:00 pm

(Link)

Не-а. Остальные -- русские. ru_RU.UTF-8.

(Reply to this) (Parent)

From:	max630.livejournal.com
Date:	June 1st, 2006 - 10:04 am

(Link)

(почитав японцев) а вообще, резонный вопрос - почему в Уникоде нет готических символов. Ведь в тексте, где одновременно присутствуют как готические символы, так и обычные, как правило, их начертание несёт в себе смысл.

(Reply to this) (Thread)

From:	mc6312.livejournal.com
Date:	June 1st, 2006 - 01:24 pm

(Link)

А какое отношение внешний вид символов имеет к кодировке?
Читал того же Ревича - и обалдевал. Каша какая-то...
Какое отношение к кодировке имеет формат шрифтов? Зачем пихать в один файл шрифта все имеющиеся в кодировке символы? Кто мешает один диапазон символов держать в одном файле, другой (если он вообще понадобится на конкретном компьютере) - в другом? Это проблемы отображалки, а не кодировки.
Ну не идеален юникод (особенно в виде utf-8), но есть ли из чего выбирать?

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 1st, 2006 - 01:35 pm

(Link)

Формат шрифтов имеет отношение самое прямое.

Юникод претендует - в качестве основного своего достоинства - на то, что он позволяет одновременно работать с символами любых языков. Без этой, громокласно заявляемой возможности - он нафиг никому не нужен за такую цену. Так вот оказывается это - вранье. Ибо шрифты.

Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!

Кроме шрифтов есть и другие вещи, скажем сортировка, с подобными же проблемами с юникодом.

(Reply to this) (Parent) (Thread)

From:	mc6312.livejournal.com
Date:	June 1st, 2006 - 02:06 pm

(Link)

Эхехех...
Во первых, сомнительно, что может понадобиться одновременно отображать все символы юникода (которых сейчас, ЕМНИМС, более миллиона). Тем более, что в существующем наборе символов юникода не только алфавиты "живых" языков.
Во вторых, повторяю, как именно отобразить N символов одновременно - проблема не кодировки, а приложения (или операционной системы). Кодировка только описывает, как именно текст хранится.
С сортировкой проблем не больше, чем с той же КОИ-8 (в которой символы идут не в алфавитном порядке). Ну, будет весовая таблица толще, только и всего...

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 1st, 2006 - 07:25 pm

(Link)

Разницу между "все" и "любые" понимаете? Это во первых.

Во вторых, Вы требуете от компьютера (приложения, операционной системы) не то что неестестенного интеллекта, а прямо таки волшебства. Откуда может компьютер знать, каким именно шрифтом какой именно текст отображать, если ни про тот, ни про другой ему ничегошеньки неизвестно? На обоих наклеена одна и та же этикетка "utf-8".

(Reply to this) (Parent) (Thread)

From:	mithgol.ru
Date:	June 2nd, 2006 - 06:33 am

Это что, шутка такая?

(Link)

Разумѣется, компьютеръ (приложенiе, операцiонная система) просто прочтётъ заголовокъ шрифтоваго файла и узнáетъ оттуда, какiе сѵмволы (глифы, кодовыя позицiи) въ шрифтѣ представлены. Напримѣръ, тотъ Firefox, въ которомъ я сейчасъ пишу, прекрасно справляется съ задачей вытаскиванiя разныхъ сѵмволовъ изъ разныхъ шрифтовъ при отображенiи текста Всемiрной Паутины.

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 9th, 2006 - 10:43 pm

Re: Это что, шутка такая?

(Link)

ну так в заголовке шрифтового файла будет написано везде - utf8. Это сейчас там написано разное.

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 03:10 pm

(Link)

Нужен будет маркап, который будет говорить, что это таким-то шрифтом печатать, а это таким-то. Это даже если вы без юникода решите обойтись.

А какие альтернативные решения? какая-то кодировка нужна. лучше, если она будет ещё и стандартной.

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками для разных скриптов, с пометками: "ага, сейчас начнётся koi8-r", "ага, сейчас начнётся iso-8859-8".

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 2nd, 2006 - 08:43 pm

(Link)

Ну вообще-то такое давно есть: точное название стандарта не назову, но ISO. Пометки реализуются как esc-последовательности ansi-стиля.
Другой вопрос, что пользоваться этим мало кто научился.

(Reply to this) (Parent) (Thread)

From:	dmitri83
Date:	June 2nd, 2006 - 09:19 pm

(Link)

iso-2022-jp

что интересно, в Японии им действительно пользуются.

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 10th, 2006 - 09:24 am

(Link)

Похоже, не совсем ISO 2022 - в нём есть только фиксированный набор кодовых последовательностей для кодировок, а я где-то видел упоминание стандартной последовательности которая включала в себя текстовое наименование кодировки.
Но направление действительно то.

(Reply to this) (Parent)

From:	lqp
Date:	June 9th, 2006 - 10:23 pm

(Link)

Нужен будет маркап

Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками

А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 10th, 2006 - 08:15 am

(Link)

> Совершенно верно. И в большинстве случаев у меня уже есть такой маркап, в виде национальных кодовых страниц. Ввведение юникода этот маркап уничтожает, предлагая на его место - что? Еще таз проходить всеь путь по тем же граблям?

Вы расскажите каким именно образом этот маркап сейчас "есть". Например, я вытаскиваю с альдебарана какой-нибудь fb2 в зипе. Где написано, какая кодировка текста? Она там 1251, но где это видно?

>> "Не слеплять же, в самом деле, текст с кусками закодированными разными кодировками"

> А какие проблемы? Тот же LaTeX позволяет ровно такое поведение (в добавление к командам вставки нужного символа) и многие им пользуются.

Да, это тоже метод. Но проблема в том, что стандартизировать общее пространство символов оказалось легче, чем коды переключения в пределах уже существующего пространства, в котором они могут быть заняты на что-то другое. Чтобы избежать коллизии кодов - надо заранее договориться что разбирается поток с определёнными переключателями. Пример - SCSU. Но он в отличие от обычных UTF'ов тяжело идентифицируется.

(Reply to this) (Parent)

From:	netch
Date:	June 2nd, 2006 - 08:24 am

(Link)

> Юникод претендует - в качестве основного своего достоинства - на то, что он позволяет одновременно работать с символами любых языков.

Правильно. И что противоречит отсутствию готических символов, если они полностью совпадают с латинскими и отличие только в шрифте? Более того, при существовании исторических промежуточных начертаний между готическими и классическими латинскими? Их тоже отражать?

Юникод действительно разрабатывался передавать разные символы. А не шрифты.

> Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!

Этого совсем не понял. Как это нельзя (йок)? Шрифт можно и сейчас выбирать, он не будет нести в себе признака кодировки, но это и лучше - меньше будет путаницы.

> Кроме шрифтов есть и другие вещи, скажем сортировка, с подобными же проблемами с юникодом.

И какие проблемы у юникода с сортировкой по сравнению с другими кодировками? Отдельный collating надо делать в любом случае. Например, ни одна из известных русских кодировок не содержит "Ё" в основном алфавите на нужном месте (чтобы код был больше "Е" но меньше "Ж"). И что, это мешает сортировать? А если требования к сортировке разные? Например, русский алфавит заканчивается на ЬЭЮЯ, украинский - на ЮЯЬ, таким образом сортировка для них будет различной и объединить это никак нельзя (разве что делать различные кодовые страницы для русского и украинского - Вы представляете себе что будет если пойти по этому пути?). Аналогичные проблемы есть в европейских языках.

Да, юникод в чём-то несовершенен. Но если сопоставить полный набор проблем и применённые методы решения, сравнить с другими решениями - он всё равно оказывается лучшим выходом для >90% применений (в условиях возможной смеси языков) и применённые решения - последовательными и логичными. Из приведённых ссылок по критике юникода - ни одна не рассматривала вопрос логично, последовательно и сравнивая с другими решениями по всем параметрам, не анализировала аргументы принятых или отвергнутых решений. По-моему, это не критика, а критиканство, pardon my french;)

(Reply to this) (Parent) (Thread)

From:	(Anonymous)
Date:	June 4th, 2006 - 04:16 pm

(Link)

vladekk@lj

Согласен

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 02:59 pm

(Link)

Причем, что характерно, если для обычных восьмибитных кодировок можно подбирать шрифт под кодировку, то в случае с юникодом - юк!

Фонтсетами, фонтсетами.

Представте себе, как в будущем вот нет на машине, скажем, шрифта для бирманского языка и соответствующие символы показываются в виде ссылок, жмёшь на них, а система тебе предлагает скачать бирманские шрифты.

Это проблема не из-за юникода, а из-за того, что мир сложен.

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 9th, 2006 - 10:27 pm

(Link)

Ну так фонтсеты именно потому сейчас еще и возможны - что большинство шрифтов - неюникодные и, соответственно содержат информацию о предоставляемом наборе символов.

каким образом вы собираетесь узнавать, что этот вот файл, у которого указана как utf-8, на самом деле -"бирманские шрифты"?

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 03:04 pm

(Link)

есть, U+010330 - U+01034A

хоть и не в BMP

(Reply to this) (Parent)

From:	netch
Date:	June 2nd, 2006 - 08:12 am

(Link)

Большинство ссылок старые и слабоактуальные на сейчас и отражают в основном проблемы тех времён когда ряд фирм говорил "Unicode - это то в чём 16 бит, а всё остальное - что-то другое". По состоянию на сейчас это вряд ли актуально - и давно уже вышли за пределы 2^16 символов, и стандарт гласит и про UCS-4, и про UTF-32 во всех видах. Неприятнее всего застрявший в старом состоянии - Java, вот это действительно неудобно для восточных письменностей (нам проще).

Политико-административные соображения тут более интересны. Действительно, местами консорциум руководствуется своими соображениями и чего-то вполне полезного и осмысленного не приемлет. Например, на кириллической странице есть древнекириллические символы (включая лигатуры вроде IE), но одной нету (не помню - не то IA не то IEn, т.е. йотированного юса малого). Ну пропустили. Через несколько лет думаю появится - когда пройдёт стандартный цикл комитетов.

С восточными языками обстановка та, что в первую очередь проходят базовые наборы символов и чем проще символьный набор, тем легче ему пройти. Буквенные письменности вроде вошли уже все, слоговые - в основном. Иероглифические - имеют проблемы в том, сколько и каких символов вводить: рассказ про 70000 символов в китайском или японском - ближе к сказке, чем к реальности, потому что из этих символов подавляющее большинство было использовано в 1-2 источниках:) Комплект минимально необходимой грамотности (чтобы читать/писать газеты и техническую литературу) не выходит за 5000 символов, и насколько я помню он есть в первых 2^16. А остальные - имеет ли смысл добавлять все из тех 40000-70000, которые встречались во всей известной письменности? Сильно сомневаюсь. В крайних случаях можно и картинку притащить:) и это будет ничуть не хуже, чем картинка для какого-нибудь суперхитрого начертания буквы, которым отличился автор древнерусской летописи.

(Reply to this) (Thread)

From:	lqp
Date:	June 9th, 2006 - 10:42 pm

(Link)

Все проблемы дизайна - они политико-административные. Что поднапрягшись и зажав нос, юникод возможно реализовать - вог всяком случае теоретически - у меня сомнений нет. Вопрос - зачем? Он не решает никаких проблем, кроме тех, которые сам же и создает.

Через несколько лет думаю появится - когда пройдёт стандартный цикл комитетов.

Вот это проблема номер раз. "А ты бей челом барину - барин и смилостивится". Всеобщая юникодизация означает доверие самопровозглашенному комитету с явно политиканствующими членами. Причем, обрати внимание - доверие не к наличному результату его работы, а к комитету как таковому, к тому, чего они там нарешают в будущем.

застрявший в старом состоянии - Java,

Совершенно верно. И это будет циклически повторятся - с каждым новым расширением юникода старный софт - и в особенности - шрифты - становятся неадекватным.

есть в первых 2^16

А это вопрос второй (или третий?)

UTF8 совершенно недвусмысленно делит человечество на людей первого (американцы), второго (европейцы, евреи, не слишком грамотные японцы) и четвертого сорта.

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 9th, 2006 - 11:13 pm

(Link)

> Все проблемы дизайна - они политико-административные. Что поднапрягшись и зажав нос, юникод возможно реализовать - вог всяком случае теоретически - у меня сомнений нет. Вопрос - зачем? Он не решает никаких проблем, кроме тех, которые сам же и создает.

Он решает проблему создания и использования единого кодового пространства. Надеюсь, вопрос о смысле единого кодового пространства не возникнет?

> Совершенно верно. И это будет циклически повторятся - с каждым новым расширением юникода старный софт - и в особенности - шрифты - становятся неадекватным.

Это говорит только о том что где-то применён локальный неудачный дизайн. Например, шрифты - а накойхер одномуфайлу шрифтов описывать всё кодовое пространство? Это как раз изначально подход восьмибитных кодировок, и если кто-то такое применил - он сам себе злобный баклан. Для юникода должны быть возможности определить "вот этот файл - фонт Zyxelides для 0-7ff" и "а вот этот - Zyxelides для старокитайского" и чтобы система выбирала, к которому обращаться.

А какое дальше UCS-4 циклическое расширение может быть? Да никакого. Фактически символов всех видов всех языков не будет более пары сотен тысяч. Если бы у нас были байты по 10 бит, можно было бы обойтись двумя такими байтами. Но они меньше - получается 3 или 4 (по двоичной иерархии). И дальше расширяться в этом направлении некуда. Так что следующего цикла не будет...

> UTF8 совершенно недвусмысленно делит человечество на людей первого (американцы), второго (европейцы, евреи, не слишком грамотные японцы) и четвертого сорта.

Ну если так считать, то и шестой сорт будет. Но я с подсчётом не согласен. Если в языке 70 тысяч символов (не верю), как он может влезть в 16 бит? Это невозможно в принципе.
Или подсчитайте количество символов латиницы со всякими диакритиками всех видов. Сколько получилось? И это всё всунуть в 128?

В общем, не могу я тут с Вами согласиться.

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 03:37 pm

(Link)

По существу критка unicode только в статьях suzanne topping и последней, "Unicode in Japan: ...". По остальным ссылкам критикуют Unicode-enabled программы, которые плохо работают.

Ну да, даже два года назад заусенцев с поддержкой юникода на среднестатистическом linux-е было гораздо больше. А пять лет назад и подавно. Сейчас-то куда лучше дела обстоят.

(Reply to this) (Thread)

From:	lqp
Date:	June 2nd, 2006 - 07:38 pm

(Link)

Разумеется. Юникодные программы плохо работают. Практически без исключений. А Вы полагали, что речть пойдет о чем-нибудь другом? О сакральном смысле числа 65536 или вз

Ну так а почему они плохо работают? Вы полагаете что вследствии случайного стечения обстоятельств?

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 2nd, 2006 - 08:48 pm

(Link)

Вследствие того что любая программная разработка очень медленна. Об этом ещё Брукс писал. Сейчас IT технологии - любые! - становятся более-менее причёсанными и устойчивыми тогда, когда или подошли к моральному устареванию (это ещё хороший случай), или перешли этот порог (плохой, но более реальный). Почему Юникод должен быть исключением?

(Reply to this) (Parent)

From:	dmitri83
Date:	June 2nd, 2006 - 09:27 pm

(Link)

Барабанная дробь: они хорошо работают. У меня полтора года уже локаль en_US.UTF-8 и всё окей, всё работает out of the box, если вам интересно. Это пять лет назад не работали, а сейчас работают. В сторону: а под windows NT вообще в 1996-м году ещё был ucs и можно было в notepad-е писать одновременно на урду и иврите.

(Reply to this) (Parent)

From:	(Anonymous)
Date:	June 4th, 2006 - 04:23 pm

(Link)

Хорошо они работают, и с каждым годом ситуация лучше и лучше. Можно спокойно писать e-mail одновременно с латышским, русским и английским словами. И сайты можно делать - php тоже уже довольно неплохо поддерживает юникод, а в php6 вообще он будет встроен. И даже мой mp3 плеер, купленный в США в тегах(кое-как сделанных по сути) IDv2 поддерживает юникод очень даже хорошо Vladekk@lj

(Reply to this) (Parent) (Thread)

From:	lqp
Date:	June 9th, 2006 - 10:45 pm

(Link)

Вы не поверите - все то же самое все остальные делают уже лет 15 безо всякого юникода! 8-)

(Reply to this) (Parent) (Thread)

From:	netch
Date:	June 9th, 2006 - 11:16 pm

(Link)

Я тоже не поверю. Каким именно образом они обеспечивают пояснение, что вот тут название на латышском, а тут на русском?
Прошу показать последовательность кодов.

(Reply to this) (Parent)

From:	vladekk.livejournal.com
Date:	June 11th, 2006 - 01:40 am

(Link)

Чтобы раньше на одной странице был латышский и русский - такого не видел не разу. Я лично не знаю, как это технически можно сделать, и очевидно, что никто не знал, даже если можно.
Сейчас - легко и с песней, в UTF-8.

mp3 плейеры требуют указания кодировок вручную (что нетривиально для простых пользователей), причём содержат нужные только для своих рынков. А плейер, предназначеный для нелюбимых вами американцев, сразу без проблем отображает русские тэги. Специально проверил - он отображает сразу и латышские и даже русские и латышские в одном месте СРАЗУ.
Мне кажется, тезис о людях второго сорта получается несостоятельным. Раньше всё бы насильно латинизировалось и он бы не показывал ни русских ни латышских букв. А сейчас можно указать названия или авторов международной песни сразу на родных языках, причём даже в Америке.

Далее. Э-письма все вечно писали с двойными буквами вместо гарумзиме (указание долготы гласной - ā, ē, ī), пока юникод не распространился. Уж незнаю, как там дело с реализацией, но то, что раньше никто не писал по-человечески емейлы на латышском - факт. То есть в данных конкретных случаях он хорош хотя бы тем, что покончил с разнобоем кодировок и софта, и насильно утвердил единый подход. Все новые средства работают с юникодом легко и непринуждённо, по крайней мере если язык простой с обычным алфавитом, незнаю насчёт left-to-right и иероглифов. Думаю, в utf-8 (и ucs-4)с ними тоже неплохо
Когда юникод станет нормой, жить будет сильно легче - не придётся шаманить с кодировками (в интернете в е-книгах до сих пор встречается CP866) и думать, что же и где указывать.

А что "инструкции для конечного автомата" - мне кажется, нет особой нужды делать так, чтобы байты человек в уме мог переводить в символы. Да это по сути тоже инструкция, хоть и попроще.

(Reply to this) (Parent)

From:	vitus-wagner.livejournal.com
Date:	June 9th, 2006 - 12:34 pm

(Link)

Уровень образованности противников Unicode восхищает. Когда

tiphareth записывает японцев и китайцев в неразвитые народы (это японцев-то с их Sony, Mitsubitsi Toyota и др, которые чуть не разорили автомобильную промышленность США) становится понятным, что это не те люди, которые способны в тексте на русском языке употребить французскую цитату.

(Reply to this)

From:	vladekk.livejournal.com
Date:	June 11th, 2006 - 01:44 am

(Link)

А статью тифарета даже обсуждать не хочется. У него везде заговоры, грязь и мрази. По сути и аргументам она мне тоже кажется неверной и демагогической

(Reply to this)