NSEG #87 MySQL
2017/05/13
とみたまさひろ
Software Design 2017年7月号(予定)
文字集合の文字をコンピュータで利用できるバイト列に変換する方式
Encoding | 文字集合 | 用途 |
---|---|---|
ISO-2022-JP | US-ASCII, JIS X 0201(ラテン文字), JIS X 0208 | メール |
EUC-JP | US-ASCII, JIS X 0201(カナ文字), JIS X 0208, JIS X 0212 |
昔のUNIX |
SHIFT_JIS | JIS X 0201, JIS X 0208 | |
Windows-31J CP932 |
Windows-31J | Windows |
Encoding | 文字集合 | 1文字のサイズ |
---|---|---|
UTF-8 | Unicode | 1〜4バイト |
UTF-16 | Unicode | 2バイト |
UTF-32 | Unicode | 4バイト |
mysql> SHOW CHARACTER SET;
+----------+---------------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+---------------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| dec8 | DEC West European | dec8_swedish_ci | 1 |
| cp850 | DOS West European | cp850_general_ci | 1 |
| hp8 | HP West European | hp8_english_ci | 1 |
| koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 |
| latin1 | cp1252 West European | latin1_swedish_ci | 1 |
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
| swe7 | 7bit Swedish | swe7_swedish_ci | 1 |
| ascii | US ASCII | ascii_general_ci | 1 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| cp1250 | Windows Central European | cp1250_general_ci | 1 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
| cp866 | DOS Russian | cp866_general_ci | 1 |
| keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 |
| macce | Mac Central European | macce_general_ci | 1 |
| macroman | Mac West European | macroman_general_ci | 1 |
| cp852 | DOS Central European | cp852_general_ci | 1 |
| latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
| cp1251 | Windows Cyrillic | cp1251_general_ci | 1 |
| utf16 | UTF-16 Unicode | utf16_general_ci | 4 |
| utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 |
| cp1257 | Windows Baltic | cp1257_general_ci | 1 |
| utf32 | UTF-32 Unicode | utf32_general_ci | 4 |
| binary | Binary pseudo charset | binary | 1 |
| geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 |
| eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
| gb18030 | China National Standard GB18030 | gb18030_chinese_ci | 4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)
charset | 文字集合 | エンコーディング |
---|---|---|
ujis | JIS X 0201 + 0208 | EUC-JP |
sjis | JIS X 0201 + 0208 | SHIFT_JIS |
eucjpms | Windows-31J | EUC-JP風 |
cp932 | Windows-31J | Windows-31J |
utf8 | Unicode | UTF-8 |
utf8mb4 | Unicode | UTF-8 |
…を全部別々に設定できる(嫌な予感しかしない)
--character-set-server=utf8mb4
[mysqld]
セクションcharacter-set-server = utf8mb4
character_set_server
配下に作成するテーブルのCharsetのデフォルト値
サーバーCharsetと同じであれば指定しなくてもいい
作成: CREATE DATABASE db CHARSET utf8mb4;
確認: SHOW CREATE DATABASE db;
変更: ALTER DATABASE db CHARSET utf8mb4;
変更しても既存のテーブルCharsetは変更されない
データベースCharsetと同じであれば指定する必要はない
作成: CREATE TABLE tbl (...) CHARSET utf8mb4;
SHOW CREATE TABLE tbl;
テーブル属性だけ変更:
ALTER TABLE tbl CHARSET utf8mb4;
全カラムとデータの変換:
ALTER TABLE tbl CONVERT TO CHARSET utf8mb4;
テーブルCharsetと同じであれば指定する必要はない
作成: CREATE TABLE tbl (col VARCHAR(10) CHARSET utf8mb4, ...);
確認: SHOW CREATE TABLE tbl;
変更: ALTER TABLE tbl MODIFY col VARCHAR(10) CHARSET utf8mb4;
変更するとカラム内のデータも変換される
クライアント内での文字列処理と
サーバーとの接続Charsetに使用される
指定方法はプログラム/言語に依存
mysql --default-character-set=utf8mb4
プログラムによっては my.cnf の [client]
セクションが有効
[client]
loose-default-character-set = utf8mb4
「loose-」をつけておくとそのパラメータを知らないプログラムは無視してくれる
mysqld との接続毎に異なる
mysql コマンドでOKでも他のアプリからはNGかもしれない
何も指定しなければ latin1
mysql> SHOW VARIABLES LIKE '%char%';
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
mysql コマンドのデフォルトCharsetは auto
システムロケール(LC_ALL, LC_CTYPE, LANG 環境変数等)により値が決定
LANG=ja_JP.UTF-8
の場合は utf8 になる
utf8mb4 ではない
LANG=C
の場合は latin1 になる
クライアントが扱えない文字は「?」になる
mysql> SELECT str FROM tbl;
+-------+
| str |
+-------+
| ?と? | ← '🍣と🍺'
| ?と? | ← '?と?'
+-------+
mysql> SELECT HEX(str) FROM tbl;
+------------------------+
| HEX(str) |
+------------------------+
| F09F8DA3E381A8F09F8DBA | ← '🍣と🍺'
| 3FE381A83F | ← '?と?'
+------------------------+
文字化けして登録されちゃう
mysql> INSERT INTO tbl (str) VALUES ('🍣と🍺');
Query OK, 1 row affected, 2 warnings (0.05 sec)
mysql> SELECT str,HEX(str) FROM tbl;
+-------------+------------------------+
| str | HEX(str) |
+-------------+------------------------+
| ????と???? | 3F3F3F3FE381A83F3F3F3F |
+-------------+------------------------+
MySQLはおかしなことしてもあまりエラーにならない(余計なお世話)
sql_mode でちゃんとエラーにしてくれる
mysql> SET sql_mode='STRICT_ALL_TABLES';
mysql> INSERT INTO tbl (str) VALUES ('🍣と🍺');
ERROR 1366 (HY000): Incorrect string value:
'\xF0\x9F\x8D\xA3\xE3\x81...' for column 'str' at row 1
MySQL 5.7 からはデフォルト
mysql> SELECT @@sql_mode
ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,
NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,
NO_ENGINE_SUBSTITUTION
mysql> SELECT '🐰'='🐢';
+---------+
| '?'='?' |
+---------+
| 1 |
+---------+
mysql> SELECT '🍛'='💩';
+---------+
| '?'='?' |
+---------+
| 1 |
+---------+
mysql> SHOW COLLATION LIKE 'utf8mb4%';
+------------------------+---------+-----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+------------------------+---------+-----+---------+----------+---------+
| utf8mb4_general_ci | utf8mb4 | 45 | Yes | Yes | 1 |
| utf8mb4_bin | utf8mb4 | 46 | | Yes | 1 |
| utf8mb4_unicode_ci | utf8mb4 | 224 | | Yes | 8 |
| utf8mb4_icelandic_ci | utf8mb4 | 225 | | Yes | 8 |
| utf8mb4_latvian_ci | utf8mb4 | 226 | | Yes | 8 |
| utf8mb4_romanian_ci | utf8mb4 | 227 | | Yes | 8 |
| utf8mb4_slovenian_ci | utf8mb4 | 228 | | Yes | 8 |
| utf8mb4_polish_ci | utf8mb4 | 229 | | Yes | 8 |
| utf8mb4_estonian_ci | utf8mb4 | 230 | | Yes | 8 |
| utf8mb4_spanish_ci | utf8mb4 | 231 | | Yes | 8 |
| utf8mb4_swedish_ci | utf8mb4 | 232 | | Yes | 8 |
| utf8mb4_turkish_ci | utf8mb4 | 233 | | Yes | 8 |
| utf8mb4_czech_ci | utf8mb4 | 234 | | Yes | 8 |
| utf8mb4_danish_ci | utf8mb4 | 235 | | Yes | 8 |
| utf8mb4_lithuanian_ci | utf8mb4 | 236 | | Yes | 8 |
| utf8mb4_slovak_ci | utf8mb4 | 237 | | Yes | 8 |
| utf8mb4_spanish2_ci | utf8mb4 | 238 | | Yes | 8 |
| utf8mb4_roman_ci | utf8mb4 | 239 | | Yes | 8 |
| utf8mb4_persian_ci | utf8mb4 | 240 | | Yes | 8 |
| utf8mb4_esperanto_ci | utf8mb4 | 241 | | Yes | 8 |
| utf8mb4_hungarian_ci | utf8mb4 | 242 | | Yes | 8 |
| utf8mb4_sinhala_ci | utf8mb4 | 243 | | Yes | 8 |
| utf8mb4_german2_ci | utf8mb4 | 244 | | Yes | 8 |
| utf8mb4_croatian_ci | utf8mb4 | 245 | | Yes | 8 |
| utf8mb4_unicode_520_ci | utf8mb4 | 246 | | Yes | 8 |
| utf8mb4_vietnamese_ci | utf8mb4 | 247 | | Yes | 8 |
+------------------------+---------+-----+---------+----------+---------+
26 rows in set (0.00 sec)
「ci」は Case Insensitive(大文字小文字を区別しない)の意味らしい
A
≠a
, 🍣≠🍺)A
=a
, A
=a
)A
≠A
)A
=a
, A
=a
, や
=ゃ
)
A
=A
)A
=a
, A
=a
, や
=ゃ
)A
=A
)Collation | A : a | 🍣 : 🍺 | は : ば ぱ : ハ |
や : ゃ |
---|---|---|---|---|
general_ci | = | = | ≠ | ≠ |
bin | ≠ | ≠ | ≠ | ≠ |
unicode_ci | = | = | = | = |
unicode_520_ci | = | ≠ | = | = |
Collation | A : a | 🍣 : 🍺 | は : ば ぱ : ハ |
や : ゃ |
---|---|---|---|---|
general_ci | = | = | ≠ | ≠ |
bin | ≠ | ≠ | ≠ | ≠ |
unicode_ci | = | = | = | = |
unicode_520_ci | = | ≠ | = | = |
ぼくたちが欲しかった japanese_ci |
= | ≠ | ≠ | ≠ |
https://yakst.com/ja/posts/4405
私たちは日本語の照合順序の追加も計画中です。日本語は興味深い言語であり、私たちの照合順序のエキスパートであるXing ZhangとBernt Marius Johnsenが、今後のブログ記事でもっと詳しく説明するはずです。
2017/1/13の記事(の翻訳)
mysql> SELECT collation_name FROM collations
WHERE character_set_name='utf8mb4' AND
collation_name LIKE '%ja%';
+-----------------------+
| collation_name |
+-----------------------+
| utf8mb4_ja_0900_as_cs |
+-----------------------+
Collation | A : a | 🍣 : 🍺 | は : ば ぱ : ハ |
や : ゃ |
---|---|---|---|---|
general_ci | = | = | ≠ | ≠ |
bin | ≠ | ≠ | ≠ | ≠ |
unicode_ci | = | = | = | = |
unicode_520_ci | = | ≠ | = | = |
0900_ai_ci | = | ≠ | = | = |
0900_as_cs | ≠ | ≠ | ≠ | ≠ |
ja_0900_as_cs | ≠ | ≠ | ≠ | ≠ |
MySQL 5.7
mysql> SELECT collation_name, is_default FROM collations
WHERE character_set_name='utf8mb4' and is_default='Yes';
+--------------------+------------+
| collation_name | is_default |
+--------------------+------------+
| utf8mb4_general_ci | Yes |
+--------------------+------------+
MySQL 8
+--------------------+------------+
| collation_name | is_default |
+--------------------+------------+
| utf8mb4_0900_ai_ci | Yes |
+--------------------+------------+