Förstå skrivtecken och kodsidor

Skrivtecken

Flerspråkiga meddelanden och objekt kan innehålla text på olika språk som kan kräva olika skrivtecken. En uppsättning skrivtecken kan användas för att representera flera språk.

De latinska eller romerska skrivtecknen består av bokstavsformer (glyfer) för de 26 bokstäverna (versaler och gemener) i det engelska alfabetet, samt accenttecken och utökade tecken som representerar de flesta bokstäver i de västeuropeiska språken, till exempel svenska.

Med de latinska skrivtecknen kan du representera samtliga bokstäver i de flesta europeiska språk samt många övriga språk. Vissa europeiska språk, till exempel grekiska och ryska, har bokstäver som det inte finns latinska skrivtecken för. Dessa språk använder egna skrivtecken.

Många asiatiska språk använder ideografiska tecken som bygger på kinesiska tecken. Vissa språk, till exempel thai och arabiska använder skrivtecken som består av flera mindre glyfer eller glyfer som har olika utseende beroende på intilliggande tecken.

Ett vanligt sätt att lagra (oformaterad) text är att använda en byte per tecken. Bytevärdet är ett numeriskt index som refererar till en teckentabell, och motsvarar ett visst tecken som är definierat på den standardkodsida som är aktiv på datorn när textdokumentet skapas. Till exempel representerar bytevärdet 189 olika tecken i olika kodsidor.

Kodsidor

En tabell med tecken som grupperats tillsammans kallas för en kodsida. Kodsidor som använder en byte kan innehålla maximalt 256 bytevärden. Eftersom varje tecken på kodsidan representeras av en enskild byte kan kodsidan innehålla maximalt 256 tecken.

En kodsida som är begränsad till 256 tecken kan inte hantera alla språk, eftersom summan av antalet tecken i samtliga språk är mycket större än 256. Därför använder olika skrivteckenuppsättningar olika kodsidor. Det finns en kodsida för grekiska och en annan kodsida för japanska, och så vidare.

Dessutom kan kodsidor med en-bytesvärden inte hantera de flesta asiatiska språk, som ofta använder över 5 000 kinesiska tecken. Därför använder dessa språk kodsidor med två-bytesvärden.

 
 
Gäller:
Outlook 2003