mysql:10128
From: "KAWAI,Takanori" <"KAWAI,Takanori" <GCD00051@xxxxxxxxxx>>
Date: Tue, 14 Sep 2004 11:31:25 +0900
Subject: [mysql 10128] Re: FULLTEXTによる日本語全文検索について
川合孝典です。 ----- Original Message ----- From: "Hirofumi Fujiwara" <fuji@xxxxxxxxxx> To: <ml@xxxxxxxxxx> Sent: Tuesday, September 14, 2004 10:59 AM Subject: [mysql 10127] Re: FULLTEXTによる日本語全文検索について > 藤原です (中略) > ドキュメントだけ読むとサポートしているように見えますが、日本語などの > 単語と単語の間に空白が入らない言語に対しては動作しないようです。空白を > 入れた分かち書きをした場合、ある程度は引っ掛かるようになるみたいです。 すいません、ドキュメントで日本語をサポートしているように 書かれていたのはどこの箇所でしょう? マニュアルを見たところ以下のとおりで、日本語をそのまま入れても エラーにならなくなった(文字セットのサポートが拡張されましたから) はずです。ただワード分割が貧弱ですから、日本語の全文検索として 利用したいのであればChaSenやKakasiなどを使って別途で解析する 必要があるでしょう。 http://dev.mysql.com/doc/mysql/ja/Fulltext_Search.html より <引用> MATCH() を WHERE 節で使用すると(上の例を参照)、返されるレコードは 関連性が最も高いレコードから低いレコードの順に自動でソートされます。 関連性を示す値は負の数でない浮動小数点数です。関連性がゼロのときは、 類似性がまったくないことを意味します。関連性は、レコードに含まれる ワード数、そのレコードに含まれる一意のワード数、コレクションに含まれる 合計ワード数、特定のワードを含むドキュメント(レコード)数に基づいて 計算されます。 (中略) MySQL では、非常に単純なパーサを使用してテキストをワード(語)に 分割します。``ワード'' とは、文字、数字、`''、`_' で構成される 文字列です。ストップワードリストに含まれる ``ワード'' や短すぎる ものは無視されます。 </引用> 参考: 「MySQLでお気楽全文検索」 http://www.hippo2000.info/perl/myfull.htm のころと、基本的な状況は変わっていない気がしますけど =================================================== 川合 孝典 (Hippo2000) DBI日本語メーリングリスト管理人、Kansai.pm所属 kwitknr@xxxxxxxxxx GCD00051@xxxxxxxxxx http://member.nifty.ne.jp/hippo2000、http://www.hippo2000.info/ perldocの日本語情報ならperldocjp:翻訳してみませんか? http://perldocjp.sourceforge.jp/ ===================================================
10120 2004-09-12 09:56 ["Eddie" <lightfield@] FULLTEXTによる日本語全文検索について 10127 2004-09-14 10:59 ┗[Hirofumi Fujiwara <f] -> 10128 2004-09-14 11:31 ┗["KAWAI,Takanori" <GC] 10129 2004-09-14 13:06 ┗[Hirofumi Fujiwara <f] 10130 2004-09-14 13:51 ┗["KAWAI,Takanori" <GC] 10131 2004-09-14 15:33 ┗[Hirofumi Fujiwara <f] 10148 2004-09-14 22:56 ┗["Eddie" <lightfield@]