[前][次][番号順一覧][スレッド一覧]

mysql:13678

From: MORIYAMA Masayuki <MORIYAMA Masayuki <moriyama@xxxxxxxxxx>>
Date: Mon, 15 Jan 2007 18:16:04 +0900
Subject: [mysql 13678] Re: UTF8 4バイト文字

森山です。

SOUMA Yutaka wrote:
>> MySQL に 4バイト文字を含む UTF8 文字列を INSERT/UPDATE しようとすると、
>> 例によってその文字以降がすべて消えてしまいます。
> 
>    4文字を3+3文字に変換とかきかないものでしょうか?

UTF-8 (RFC 3629) では、そのような符号化は、禁止されていませんでしたっけ?
http://www.rfc-editor.org/rfc/rfc3629.txt
http://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt

UTF-16 のサロゲートペアの文字を 3バイト+3バイトで表現する符号化方式は、
CESU-8 という名前が付けられているようです。
http://unicode.org/reports/tr26/

UTF8 という名前では、正しく RFC 3629 通りの実装をして、現行の 3 バイトま
でしかサポートされていない UTF8 は、CESU8 と改名した方が好ましいのではな
いかと思っています。

ただ、UTF8 という名前で CESU-8 を期待するアプリケーションソフトが既に多
く開発されてしまっていると、非互換の問題を生じるのでしょうね。悩ましい問
題です。


[前][次][番号順一覧][スレッド一覧]

     13666 2007-01-12 22:32 [とみたまさひろ <tomm] UTF8 4バイト文字                        
     13667 2007-01-13 01:48 ┣[SOUMA Yutaka <holon@]                                       
->   13678 2007-01-15 18:16 ┃┗[MORIYAMA Masayuki <m]                                     
     13670 2007-01-15 12:25 ┗[Yasufumi Kinoshita <]                                       
     13671 2007-01-15 13:42  ┣[<ymatsunobu@xxxxxxxx] Re: UTF8 4$B%P%$%HJ8;z(B          
     13679 2007-01-19 00:58  ┃┗[とみたまさひろ <tomm] Re: UTF8 4バイト文字              
     13692 2007-01-25 11:27  ┗["OGAWA Motoyuki (小]