dibr: новый стандарт юникода

(Добавить комментарий)

	vlkamov@lj 2010-11-14 10:49 (ссылка)
	А ведь когда-то на уроках истории нам внушали, что алфавит прогрессивнее иероглифов ;-) (Ответить)

	mikell@lj 2010-11-14 13:59 (ссылка)
	Нуууу, его еще надо в шрифтах отрисовать! :-D (Ответить) (Ветвь дискуссии)

	dibr@lj 2010-11-14 14:16 (ссылка)
	Так оно ведь уже отрисовано же. А пользователю новые шрифты какой-нибудь windows update может доставить, ночью и незаметно для пользователя :-) (Ответить) (Уровень выше) (Ветвь дискуссии)

	sergey_cheban@lj 2010-11-14 15:45 (ссылка)
	Есть проблема: шрифт TTF не может содержать больше 2^16 символов. (Ответить) (Уровень выше)

sergey_cheban@lj
2010-11-14 15:43 (ссылка)

> Сейчас, я смотрю, за 16 бит уже высовываются - пока самым краешком, но сам факт...
Оно давным-давно случилось, я как минимум в 2003 году про это слышал. С тех пор WCHAR * в windows - это указатель на строку в кодировке UTF-16. С wchar_t в microsoft visual studio тоже проблемы: он 16-битный, и некоторые символы в него не влезают.
Ну а юниксоиды спокойно хранят данные в utf-8, хоть она и multibyte, а для внутреннего представления используют 32-битный wchar_t.

А с китайцами, оказывается, вообще смешно: они время от времени создают новые иероглифы.

> смайлеги (действительно разнообразные, хотя на мой вкус какие-то излишне картонные)
Вполне можно создать шрифт, в котором смайлики будут не картонными. Главное, чтобы "smiling face with sunglasses" оставалось улыбающимся и с тёмными очками.

(Ответить)

	tyomitch@lj 2010-11-15 04:25 (ссылка)
	За 16 бит, действительно, высовываются уже давно: лично я в том же 2003 пользовался готским алфавитом, который в Plane 1. А как раз кандзи, я считал, все поместились в Plane 0? (Ответить) (Ветвь дискуссии)

dibr@lj
2010-11-15 05:14 (ссылка)

>> А как раз кандзи, я считал, все поместились в Plane 0?
> "Общее число существующих кандзи определить сложно. Словарь Дайканва Дзитэн содержит около 50 тыс. иероглифов, в то время как более полные и современные китайские словари содержат более 80 тыс. знаков" (с) http://ru.wikipedia.org/wiki/Кандзи

Вряд ли, разве что "базовый набор" (несколько тысяч хероглифов, есть несколько разных вариантов таких наборов). А катакану японцы вообще целиком в верхнюю половину 8-битной кодировки положили, как мы когда-то кириллицу...

(Ответить) (Уровень выше) (Ветвь дискуссии)

tyomitch@lj
2010-11-15 05:36 (ссылка)

http://www.tonypottier.info/Unicode_And_Japanese_Kanji/ :

The Japanese language is written with two syllabaries (Hiragana and Katakana), but it also uses Chinese characters (Kanji). But not all Chinese characters, just a small subset named “jōyō kanji (常用漢字)” that is maintained by the Japanese Ministry of Education. As of 2009, there are 2,131 of them.

Так что "несколькими тысячами хероглифов" исчерпывается весь официальный набор кандзи.

(Ответить) (Уровень выше) (Ветвь дискуссии)

dibr@lj
2010-11-15 06:42 (ссылка)

И продолжаем читать фразу дальше: "More accurately, there are more than ten thousands Chinese characters in use for the Japanese language but on this paper; we’ll focus on the official list every Japanese-educated person should know".

То есть, 2131 иероглиф - это базовый словарь, "для школьников". А уже для студентов - "Кандзи кэнтэй — «тест на знание японских кандзи» (日本漢字能力検定試験 Нихон кандзи но:рёку кэнтэй сикэн) проверяет способности чтения, перевода и написания кандзи. Проводится японским правительством и служит для проверки знаний учащихся школ и университетов Японии. Содержит 10 основных уровней, самый сложный из которых проверяет знание 6000 кандзи" - вполне официальный список, но почти в три раза больше. А сколько их вообще, включая те, что в институтах не спрашивают - цитату я уже привёл...

(Ответить) (Уровень выше) (Ветвь дискуссии)

tyomitch@lj
2010-11-15 08:25 (ссылка)

Ну логично же, что современные русские буквы в юникоде есть, а церковнославянских юсов нет?
Какой смысл включать в Юникод символы, которые никогда не будут использованы в набираемых на компьютере документах?
Юникодные кодпойнты -- это же не "официальное свидетельство о существовании" символа; у них более узкое назначение.

(Ответить) (Уровень выше) (Ветвь дискуссии)

mr_rm@lj
2010-11-15 12:01 (ссылка)

Как это юсов нет? U+0466 - U+046D, еще с версии 1.1. Но это, все же, буквы, символы алфавита какого-то языка.
А какая частота использования всевозможнейших пиктограмм? Тут сначала надо определить, что нужный символ вообще есть, найти его код (как? по названию?), потом найти шрифт...

(Ответить) (Уровень выше)

dibr@lj
2010-11-15 15:08 (ссылка)

Так "юс" - это буква, причём уже несуществующего алфавита, а иероглиф - это слово, причём их только "официальных" (тех, что проверяют на экзамене) 6000, а "словарных" (тех, что есть в словарях) - десятки тысяч. Вот я и предположил, что при нынешних тенденциях они могут однажды (почти) всю кандзи засунуть в очередной "юникод 7.0" (поскольку сейчас в юникоде находятся только частоупотребимые иероглифы, то есть довольно небольшая часть всей кандзи).

А то можно было бы и вообще без кандзи в шрифтах обойтись - можно же ведь всё записывать каной, смысл не пострадает...

(Ответить) (Уровень выше)