標籤:編碼 相容 個數 亂碼 資料類型 顯示 cte 目標 文字
電腦中儲存的資訊都是用位元表示的。通俗的說,按照何種規則將字元儲存在電腦中,如‘n‘用什麼表示,稱為"編碼";反之,將儲存在電腦中的位元解析顯示出來,稱為"解碼".在解碼過程中,如果使用了錯誤的解碼規則,則導致‘n‘解析成‘m‘或者亂碼。
使用字元編碼聲明,並且同一工程中的所有原始碼檔案使用相同的字元編碼聲明。
這點是一定要做到的。
python3 拋棄str,全部使用unicode。
按引號前先按一下u最初做起來確實很不習慣而且經常會忘記再跑回去補.
當電腦傳到世界各個國家時,
為瞭解決亂碼問題,一個偉大的創想產生了——Unicode。Unicode編碼系統為表達任意語言的任一字元而設計。它使用4位元組的數字來表達每個字母、符號,或者表意文字(ideograph)。每個數字代表唯一的至少在某種語言中使用的符號。(並不是所有的數字都用上了,但是總數已經超過了65535,所以2個位元組的數字是不夠用的。)被幾種語言共用的字元通常使用相同的數字來編碼,除非存在一個在理的語源學(etymological)理由使不這樣做。不考慮這種情況的話,每個字元對應一個數字,每個數字對應一個字元。即不存在二義性。不再需要記錄"模式"了。U+0041總是代表‘A‘,即使這種語言沒有‘A‘這個字元。
在電腦科學領域中,Unicode(統一碼、萬國碼、單一碼、標準萬國碼)是業界的一種標準,它可以使電腦得以體現世界上數十種文字的系統。Unicode 是基於通用字元集(Universal Character Set)的標準來發展,並且同時也以書本的形式[1]對外發表。Unicode 還不斷在擴增, 每個新版本插入更多新的字元。直至目前為止的第六版,Unicode 就已經包含了超過十萬個字元(在2005年,Unicode 的第十萬個字元被採納且認可成為標準之一)、一組可用以作為視覺參考的代碼圖表、一套編碼方法與一組標準字元編碼、一套包含了上標字、下標字等字元特性的枚舉等。Unicode 組織(The Unicode Consortium)是由一個非營利性的機構所運作,並主導 Unicode 的後續發展,其目標在於:將既有的字元編碼方案以Unicode 編碼方案來加以取代,特別是既有的方案在多語環境下,皆僅有有限的空間以及不相容的問題。
Python的學習之旅———基礎資料型別 (Elementary Data Type)(字元編碼)