UTF-8

C’era un tempo, lontano lontano, in cui l’unica certezza era l’ASCII. Qualsiasi trasgressione a questo standard era severamente punita: se aveste usato caratteri accentati (cosa invero alquanto comune, in Italia) all’interno di una e-mail destinata ad un amico in un’altra nazione o utente di un differente sistema operativo, con buona probabilità le vostre eleganti “è” sarebbero state lette come simboli indecifrabili.

Dapprima si cercò una soluzione standardizzando anche le codepage. Poi qualcuno inventò l’Unicode, uno standard ambizioso che si prefigge di rappresentare con bit (e bit standard, soprattutto) la totalità dei glifi usati nei linguaggi umani.

C’è chi lotta perché nell’Unicode vengano accettati anche il Klingon ed il Tengwar, per darvi un’idea delle dimensioni del progetto e della varietà di caratteri standardizzati.

L’UTF-8 del titolo è una codifica che permette di rappresentare ogni carattere dell’Unicode con una sequenza di caratteri ad 8 bit, che mira ad una certa compatibilità con i formati esistenti nei casi di testi conformi allo standard ISO-8859-15. Le nostre amate accentate sono rappresentate con due byte, mentre caratteri particolarmente inusuali possono venire rappresentati con sequenze di byte più lunghe.

Il succo di questo? Se il vostro browser supporta UTF-8 ed il font che usate contiene gli appropriati glifi, potete vedere in questa stessa pagina scritte in

greco antico: Ὦ φῶς, τελευταῖόν σε προσϐλέψαιμι νῦν

arabo: السلام عليك

ebraico: אני לא מדבר עברית

cinese: 你會說漢語嗎

giapponese: わたしはあなたが好きです

o addirittura in tengwar:

󲀪󲁀 󲀐󲀟󲁀󲀇 󲀄󲀔󲁈󲀅󲀀󲁀󲀚󲁈󲀃󲁉 󲀪󲁀 󲀐󲀟󲁀󲀇 󲀇󲀅󲁌󲁄󲀀󲁀󲀚󲁈

󲀪󲁀 󲀐󲀟󲁀󲀇 󲀈󲀘󲀃󲁀󲀀󲁀󲀚󲁈󲀃󲁉 󲀯󲁀 󲀅󲀔󲁈󲀞󲀑󲁈󲀪󲁄󲀥󲁄 󲀃󲀘󲀁󲁌󲁄󲀀󲁀󲀚󲁈

ma è improbabile che vediate correttamente la frase qui sopra (che per i curiosi è la famosa “Un anello”) perché non è ancora propriamente parte dello standard ed i suoi glifi sono presenti solo in pochi font. Sigh.

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *