mysql:10640
From: "Shuichi Tamagawa" <"Shuichi Tamagawa" <shuichi@xxxxxxxxxx>>
Date: Wed, 8 Dec 2004 22:52:57 -0800
Subject: [mysql 10640] Re: 新規キャラクタセットの名称
森山様 大変貴重な情報ありがとうございます。 参考にさせて頂きます。 > (1) ユーザ定義文字 > > http://www.microsoft.com/globaldev/reference/dbcs/932.htm > このマッピングを元にするとの事ですが、これにはユーザ定義文字(0xF040〜 > 0xF9FC) が定義されていません。 > > cp932, eucJP-ms では、ユーザ定義文字のマッピングは次のようになってい > ます。 > > cp932 Unicode > 0xF040〜0xF9FC U+E000〜U+E757 (94文字x20区=1880文字) ユーザー定義文字の部分については、未対応でした。 cp932 -> Unicodeのマッピングがファイルになっているものは どこかにありますでしょうか? > (2) 重複符号化されている文字 > > NEC選定IBM拡張文字とIBM拡張文字ののように同じ文字が重複して定義され > ていものに関して、cp932 → Unicode の変換では、1 つのコードポイント > に集約されます。 この点はご紹介いただいた下記リンクのルールに従って対応してあります。 http://support.microsoft.com/default.aspx?scid=kb;ja;JP170559 > (3) eucJP-ms の変換 > > TOG/JVC の変換表だけでは、Unicode → eucJP-ms の変換を一意に決めるこ > とが出来ません。 > > glibc, libiconv のパッチでの eucJP-ms の変換は、次のページにまとめて > ありますので参考にしてください。 > http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html こちらも対応済みです。 > (4) Windowsの日本語EUCと eucJP-ms > > Windowsの日本語EUC は、Microsoft Windows Codepage 51932 というものな > のですが、これは一部、eucJP-ms とは互換性がありません。 > LAMP(Linux,Apache,MySQL,PHP)環境のように Web ブラウザから受け取った > 日本語を DB に格納する場合、HTML の文字コードに、eucJP-ms を使ってし > まうと、文字コード変換で文字化けが発生するので注意が必要となります。 対応策としてはどのようなことがあるでしょうか? 以上 -- Shuichi Tamagawa tamagawa@xxxxxxxxxx shuichi@xxxxxxxxxx
10615 2004-12-07 16:41 ["Shuichi Tamagawa" <] 新規キャラクタセットの名称 10617 2004-12-08 10:28 ┗[EBIHARA Yuichiro <ui] 10625 2004-12-08 14:16 ┣[SATOH Fumiyasu <fumi] 10635 2004-12-09 01:49 ┃┗[EBIHARA Yuichiro <ui] 10636 2004-12-09 07:02 ┗[Shuichi Tamagawa <sh] 10639 2004-12-09 13:05 ┗[MORIYAMA Masayuki <m] -> 10640 2004-12-09 15:52 ┗["Shuichi Tamagawa" <] 10641 2004-12-10 01:20 ┗[MORIYAMA Masayuki <m] 10643 2004-12-10 09:38 ┗[Shuichi Tamagawa <sh]