mysql:13678
From: MORIYAMA Masayuki <MORIYAMA Masayuki <moriyama@xxxxxxxxxx>>
Date: Mon, 15 Jan 2007 18:16:04 +0900
Subject: [mysql 13678] Re: UTF8 4バイト文字
森山です。 SOUMA Yutaka wrote: >> MySQL に 4バイト文字を含む UTF8 文字列を INSERT/UPDATE しようとすると、 >> 例によってその文字以降がすべて消えてしまいます。 > > 4文字を3+3文字に変換とかきかないものでしょうか? UTF-8 (RFC 3629) では、そのような符号化は、禁止されていませんでしたっけ? http://www.rfc-editor.org/rfc/rfc3629.txt http://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt UTF-16 のサロゲートペアの文字を 3バイト+3バイトで表現する符号化方式は、 CESU-8 という名前が付けられているようです。 http://unicode.org/reports/tr26/ UTF8 という名前では、正しく RFC 3629 通りの実装をして、現行の 3 バイトま でしかサポートされていない UTF8 は、CESU8 と改名した方が好ましいのではな いかと思っています。 ただ、UTF8 という名前で CESU-8 を期待するアプリケーションソフトが既に多 く開発されてしまっていると、非互換の問題を生じるのでしょうね。悩ましい問 題です。
13666 2007-01-12 22:32 [とみたまさひろ <tomm] UTF8 4バイト文字 13667 2007-01-13 01:48 ┣[SOUMA Yutaka <holon@] -> 13678 2007-01-15 18:16 ┃┗[MORIYAMA Masayuki <m] 13670 2007-01-15 12:25 ┗[Yasufumi Kinoshita <] 13671 2007-01-15 13:42 ┣[<ymatsunobu@xxxxxxxx] Re: UTF8 4$B%P%$%HJ8;z(B 13679 2007-01-19 00:58 ┃┗[とみたまさひろ <tomm] Re: UTF8 4バイト文字 13692 2007-01-25 11:27 ┗["OGAWA Motoyuki (小�]