UTF-8 Nedir?
UTF, Unicode Transformation Format kelimelerinin kısaltmasıdır.
UTF-8, 8-bitlik bir Unicode dönüşüm biçimidir. Unicode karakterlerini değişken sayıda 8 bitten oluşan bayt gruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.
UTF-8 kodlaması Unicode karakterlerini 1-6 bayt uzunluğunda diziler olarak kodlar. UTF-8 ile kodlanan bir metinde her karakterin uzunluğu 8’in katıdır. Kodlama yapılırken kodlanmış metni işleyecek bir bilgisayar yazılımının karakterlerin başlangıç ve bitiş noktalarını bilebilmesine olanak sağlamak için kod birimlerinin içine işaretçi bazı bitlerin yerleştirilmesi gerekmektedir.
Örnek UTF-8 Karakter Setleri
Modern bir HTML 5 sayfasında, <head>…</head> etiketleri arasına yerleştirilir:
[html]
<Meta charset = "UTF-8">
[/html]
Eski HTML 4.0.1 sayfaları için bunu kullanın:
[html]
<Meta http-equiv = "Content-Type" content = "text / html; charset = UTF-8">
[/html]
Bir XML dosyasında, tipik bir özellik olarak da şu şekilde kullanılır:
[html]
<? Xml version = "1.0" encoding = "UTF-8"?>
[/html]