一、轉碼失敗
創(chuàng)新互聯(lián)公司-專業(yè)網站定制、快速模板網站建設、高性價比藁城網站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式藁城網站制作公司更省心,省錢,快速模板網站建設找我們,業(yè)務覆蓋藁城地區(qū)。費用合理售后完善,十多年實體公司更值得信賴。
在數據寫入到表的過程中轉碼失敗,數據庫端也沒有進行恰當的處理,導致存放在表里的數據亂碼。
針對這種情況,前幾篇文章介紹過客戶端發(fā)送請求到服務端。
其中任意一個編碼不一致,都會導致表里的數據存入不正確的編碼而產生亂碼。
比如下面簡單一條語句:
set @a = "文本字符串";
insert into t1 values(@a);
變量 @a 的字符編碼是由參數 CHARACTER_SET_CLIENT 決定的,假設此時編碼為 A,也就是變量 @a 的編碼。
2. 寫入語句在發(fā)送到 MySQL 服務端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設此時編碼為 B。
3. 經過 MySQL 一系列詞法,語法解析等處理后,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數據就直接亂碼。
二、客戶端亂碼
表數據正常,但是客戶端展示后出現(xiàn)亂碼。
這一類場景,指的是從 MySQL 表里拿數據出來返回到客戶端,MySQL 里的數據本身沒有問題??蛻舳税l(fā)送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結果傳輸到客戶端,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數據就看起來亂碼了。但是由于數據本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結果。
這一類又分為以下三個不同的小類:
1)字段編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數據的編碼是 utf8mb4,而 SESSION 1 發(fā)起的連接編碼為 gbk。那由于編碼不兼容,檢索出來的數據肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應用端編碼也是 utf8mb4,但是表里的數據可能一半編碼是 utf8mb4,另外一半是 gbk。那么此時表的數據也是正常的,不過此時采用哪種編碼都讀不到所有完整的數據。這樣數據產生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導致(變更不徹底,我之前的篇章里有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現(xiàn)在是 gbk,而且兩次編碼期間都被寫入了正常的數據。
3)每個字段的編碼不一致,導致亂碼和第二點一樣的場景。不同的是:非記錄間的編碼不統(tǒng)一,而是每個字段編碼不統(tǒng)一。舉個例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個字段單獨讀出來數據是完整的,但是所有字段一起讀出來,數據總會有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲數據
估計大家都知道字符集 LATIN1,LATIN1 對所有字符都是單字節(jié)流處理,遇到不能處理的字節(jié)流,保持原樣,那么在以上兩種存入和檢索的過程中都能保證數據一致,所以 MySQL 長期以來默認的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點,數據也沒亂碼,那為什么還有選用其他的編碼呢?原因就是對字符存儲的字節(jié)數不一樣,比如 emoji 字符 "?",如果用 utf8mb4 存儲,占用 3 個字節(jié),那 varchar(12) 就能存放 12 個字符,但是換成 LATIN1,只能存 4 個字符。
說明 : string1,string2代表字符串,concat函數在連接字符串的時候,只要其中一個是NULL,那么將返回NULL
結果:
說明:將多個字符串連接成一個字符串,但是可以一次性指定分隔符~(concat_ws就是concat with separator)
GROUP_CONCAT([DISTINCT] expr [,expr ...] [ORDER BY {unsigned_integer | col_name | expr} [ASC | DESC] [,col_name ...]] [SEPARATOR str_val])
說明:
DISTINCT:去除重復值
expr [,expr ...]:一個或多個字段(或表達式)
ORDER BY {unsigned_integer | col_name | expr} [ASC | DESC] [,col_name ...]:根據字段或表達式進行排序,可多個
SEPARATOR str_val:分隔符(默認為英文逗號)
group_concat()函數在處理大數據的時候,會發(fā)現(xiàn)內容被截取了
其實MYSQL內部對這個是有設置的,默認不設置的長度是1024,如果我們需要更大,就需要手工去修改配置文件
數學函數:用來處理數值數據,主要有3類-取整函數(ROUND()、CEIL()、FLOOR())、絕對值函數(ABS())、求余函數(MOD())
字符串函數官方文檔:
字符串函數主要用到4種函數:CAST()、CONCAT()、CHAR_LENGTH()、SPACE()。
IF(表達式,V1,V2):如果表達式為真,則返回V1,否則返回V2。
IFNULL(V1,V2):如果V1的值不為空,則返回V1,否則返回V2。
總結一下:
mysql中replace只能替換既定字符串,如:
UPDATE`web_article`SETbody=REPLACE(body,'div','body');1
所以對于需要替換特定部分變化的字符串則顯得無能為力,如:
BaseURI;/BaseURIRULE政民互動/RULESOURCE北京市經濟和信息化委員會/SOURCEWEBROOT;/WEBROOTDISKROOTD:oot/DISKROOT
其實你的兩種方案都可以,第二種也挺好的,以前我一般都用方案一那種,都存到數據庫里,我沒有測試過超長字符串存到數據庫中的查詢效率,和內存問題,不過你也可以這兩種方案都用,過大的就存文件,小的就存數據庫,用個字段做標識就行
名稱欄目:mysql字符串怎么處理 mysql字符集問題
網頁URL:http://aaarwkj.com/article4/doodgie.html
成都網站建設公司_創(chuàng)新互聯(lián),為您提供網站建設、關鍵詞優(yōu)化、小程序開發(fā)、網站設計、定制開發(fā)、網頁設計公司
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)