Yazı Karakterini Kodlamak

İnternet bağlantısı diye adlandırılan sistem elektrik sinyallerini bir adresten diğer bir adrese taşımaya yarayan devrimsel bir sistemdir. Bu elektrik sinyalleri iki adres arasında çok hızlı bir iletişim kurulmasını sağlar. Yalnız bu iletişimin iki tarafında anlayacağı kodlar şeklinde yapılması gerekir. Eskiden kullanılan telgraf hatlarını en ilkel internet bağlantıları olarak düşünebilirsiniz. Telgraf iletişimi Samuel Morse tarafından icat edilen Mors alfabesi kodları ile yapılabiliyordu. Örneğin Mors alfabesinde “S” harfi için 3 adet kısa sinyal “O” harfi için 3 adet uzun sinyal göndermek gerekiyordu. Örneğin yardım çağrısı olarak bilinen “SOS” sinyali şu şekilde gönderiliyor.

S.O.S.

Günümüzde telgraf telleri yerini internet hatlarına bıraktı ama yazı karakterlerini kodlama konusunda telgraf kullanımı önemli bir örnektir.

Mors Alfabesi

ASCII kodları

ASCII (American Standard Code for Information Interchange) kodları Mors alfabesindeki gibi kodları harflere dönüştürmemize yarayan bir standart. Mors alfabesinden temel farkı kodların sabit uzunlukta olmasıdır. Örneğin “E” harfini mors alfabesinde tek bir kısa sinyal ifade eder, “S” harfini ise üç kısa sinyal ifade eder. ASCII kodlarında ise tüm karakterler 8 sinyalde ifade edilir.  Şimdi kısa sinyali 0 uzun sinyale 1 kabul ederek, ASCII ile Mors kodlarının kıyaslaması yapalım.

Harf Mors ASCII
C 1010 01000011
E 0 01000101
O 111 01001111
S 000 01010011

Sinyalleri Mors kodları ile harflere dönüştüren bir insandır bu yüzden kodları dinlerken harflere dönüştürmesi kolay olmalıdır kodlar çok uzun, duyulamayacak kadar hızlı, karakterleri ezberlemesi zor olmamalıdır. ASCII kodları için böyle bir durum yoktur çünkü harflere dönüşüm bilgisayar tarafından yapılmaktadır. Bu yüzden kodların sabit uzunlukta olması kaydetme ve kullanma sırasında büyük avantaj sağladığı için tercih edilmiştir. Kodlar 8 bit uzunluğunda olduğu için 0 dan 255 e kadar kodlara numaralar verilmiştir. ASCII kodları Mors alfabesi gibi tamamen karakterlerden oluşmaz içerisinde bilgisayar komutları da yer alır, 32. koddan den 127. koda kadar yazı karakterlerini içerir. Diğer kodlar değişken veya bir bilgisayar komutu dur. ASCII karakterleri içerisinde Türkçe’ye has karakterler olan “ş”, “ö” gibi harfler yoktur bunlar değişken karakter olarak sonradan iso-8859-9 standardı olarak belirlenmiştir. Alt yazılı film izlerken eğer “ş” harfi yerine “ÿ” harfi çıkıyorsa video oynatıcının ayarlarında karakter setleri içinde iso-8859-9 seçilerek problem düzeltilebilir.

ASCII

UTF-8 Kodları

ASCII kodları ile belirtilen karakter sayısı özellikle Çince gibi binlerce karaktere sahip diller için yetersiz kalmaktadır. UTF-8 (Unicode Transformation Format – 8bit) kodlama yöntemi ile 8 bit uzunluğa sahip ASCII kodlarını 16, 24 veya 32 bit e kadar yükseltebilme özelliği vardır. Bu sayede 1,112,064 farklı karakter ifade edilebilmektedir. Tüm dillerde yer alan karakterleri tanımlayabildiğimiz bu kodlama sistemine günümüzde her gün yeni karakterler eklenerek, büyük bir UTF-8 karakter kütüphanesi oluşturuluyor. ASCII kodları içerisinde bulunmayan Türkçe karakterlerin UTF-8 kodları aşağıda verilmiştir. 8 bitlik bir değeri 2 li sayı tabanda 8 karakter ile ifade etmek yerine genellikle 16 lı sayı tabanda 2 karakter ile ifade edilir.

Karakter UTF-8 ASCII HTML
Ç c3 87 c7 Ç
ç c3 a7 e7 ç
Ğ c4 9e Ğ
ğ c4 9f ğ
İ c4 b0 İ
ı c4 b1 ı
Ö c3 96 d6 Ö
ö c3 b6 f6 ö
Ş c5 9e Ş
ş c5 9f ş
Ü c3 9c dc Ü
ü c3 bc fc ü

UTF-8 ile sadece harfler ifade edilmiyor ayrıca firma logoları, semboller ve işaretler de yer almaktadır. Tabi bu karakterleri bilgisayarınızda yazdırmak istediğinizde bu karakterleri içeren bir font bulundurmak zorundasınız. Aşağıda bazı sembollerin UTF-8 numaraları yer almakta. Bu semboller “Genericons” fontunda yer almakta.

Genericons

Diğer dillere ait karakterlerin kodlarını öğrenmek için
https://www.utf8-chartable.de/ sitesini ziyaret edebilirsiniz.

Duygu İçeren Karakterler (Emoji)

Duygu içeren karakterler mesajlar içerisinde oldukça sık kullanılıyor, bu karakterler mesaj içerisinde bir resim şeklinde değil yine karakter kodu şeklinde kodlanıyor. Bazı karakterlerin HTML kodları.

Emoji HTML kodu Açıklama
? 😊 Gözlerini kısarak gülmek
? 😃 Ağzı açık gülmek
? 😍 Kalp gözlü gülmek
? 😲 Şaşırmak
? 😢 Ağlamak
? 😎 Gözlük ile Gülümseme
? 😬 Suratını Ekşitme
? 😐 İfadesiz Yüz
? 👏 Alkış
? 👍 Baş Parmak Yukarı
? 👎 Baş Parmak Aşağı
? 🍕 Dilim Pizza
? 🔒 Kilit

İçerisinde yüzlerce emoji barından https://apps.timwhitlock.info/emoji/tables/unicode sitesini ziyaret edebilirsiniz.

0
0