Adriaan van Os wrote:
egbert@seibertz.de wrote:
Moin Pascaller,
im Rahmen von systemweiten Zeichensatzumstellungen (von latin1 auf utf8) funktionieren nun erwartungsgemäß einige Pascalprogramme nicht mehr. Teilweise weil Dateinamen nicht mehr verstanden werden und teilweise weil Eingaben nicht mehr verstanden werden. Oder die Nutzer die Ausgaben nur noch erraten können ...
Sehr ärgerlich an utf8 ist, daß durch die variable Zeichenlänge der Programmieraufwand für die Erkennung überproportional ansteigt. Möglicher Weise wäre utf16 (USC2) deutlich einfacher im Aufwand ...
Nach meiner Meinung ist UTF-16 wohl die slechteste Wahl, weil auch UTF-16 eine Kodierung ist mit variabeler Länge (http://en.wikipedia.org/wiki/Utf-16), obwohl Sie oft nicht als Solches behandelt wird, was dann wiederum zu Fehlern führt !
Das stimmt, also dann besser gleich UTF-32, das ist wirklich eine 1:1-Codierung, und entspricht auch "wchar_t" (wide char) in C/C++.
egbert@seibertz.de schrieb:
Nun zur den Fragen:
A hat jemand vielleicht schon eine (gut funktionierende) Codeumsetzung von zB utf8 nach latin1 (und umgekehrt) (besser (zukunftsicherer) wäre nach utf16 oder utf32) geschrieben die man allen (!) Aus- und Eingabeoperationen voransetzen kann (also nicht eine Funktion, die bei jedem Schreiben oder Lesen im Programm explizit aufgerufen werden muß)? Gff: Wie aktiviert man das?
Ich habe nichts in fertiger Form. Mein Ansatz wäre:
- UTF-8 <-> UTF-32, also die Codierung der Zeichensequenzen (reine Rechnerei, unabhängig von der Bedeutung der Zeichen)
- UTF-32 <-> Latin1 ist dann trivial, da Latin1 per Definition eine Teilmenge (0 .. 255) von UTF-32 ist, d.h. man muss nur überlegen, was man mit höheren Zeichen macht (wegwerfen, Fehler oder teilweise umsetzen). Interessant könnte auch Latin9 sein, das sich von Latin1 nur in ein paar Zeichen (v.a. Euro-Zeichen) unterscheidet. Diese muss man dann allerdings von Hand umsetzen (z.B. Euro: $20ac in Unicode, $a4 in Latin9).
Das beides würde ich als eigenständige Funktionen schreiben, die man immer mal wieder brauchen kann.
- Um die Funktionen automatisch in Ein-/Ausgabe einzubinden, gibt es jedenfalls für Textdateien eine GPC-spezifische Lösung, nämlich AssignTFDD ("Text File Device Driver"). Das ist etwas low-level, man muss mit Funktionszeigern und Buffern hantieren. Als Beispiel s. z.B. AssignDos in dosunix.pas (das ist für automatische CR/LF-Umwandlungen zwischen Dos- und Unix-Textdateien). Prinzipiell könnte man so auch UTF-Umwandlung implementieren.
B gibt es eine einfache Möglichkeit dem GPC zu sagen, daß strings nun nicht mehr aus Feldern von char zu 8bit, sondern aus char zu 16bit bestehen? Wobei ich nicht alles händisch umschreiben möchte (Das Problem betrifft eben sehr viele Programme, die mit deutschsprachigen Wörtern umgehen können müssen ...).
Zurzeit leider nicht, alle String-Operationen sind fest auf 8-Bit-"Char" eingestellt.
Im Zuge von größeren Änderungen in GPC könnte man das irgendwann unterstützen, aber nicht auf die Schnelle.
Ich habe mir in letzter Zeit ein paar Gedanken über mögliche größere GPC-Änderungen in der Zukunft gemacht (die weit über Unicode hinausgehen), und werde vermutlich in ein paar Wochen in der englischen Liste etwas dazu schreiben. Aber wie gesagt, für eine kurzfristige Lösung ist das nicht interessant.
Frank
Frank Heckenbach wrote:
Ich habe nichts in fertiger Form. Mein Ansatz wäre:
- UTF-8 <-> UTF-32, also die Codierung der Zeichensequenzen (reine Rechnerei, unabhängig von der Bedeutung der Zeichen)
Ungefähr wie folgt (nur ein Ansatz, kein GNU Pascal).
Type Int32 = Integer attribute( size = 32); UCS4Code = Int32; EncodedChar = string[ 6]; PackedChar = packed array[ 0..0] of char; PackedCharPtr = ^PackedChar;
procedure UCS4CodeToUTF8 ( theUCS4Code : UCS4Code; var theUTF8Char : EncodedChar); var theIndex : Int32; begin if theUCS4Code <= $0000007F then begin theUTF8Char[ 0] := char( 1); theUTF8Char[ 1] := char( theUCS4Code) end else if theUCS4Code <= $000007FF then begin theUTF8Char[ 0] := char( 2); theUTF8Char[ 1] := char(( theUCS4Code shr 6) or $C0); theUTF8Char[ 2] := char(( theUCS4Code and $3F) or $80) end else if theUCS4Code <= $0000FFFF then begin theUTF8Char[ 0] := char( 3); theUTF8Char[ 1] := char(( theUCS4Code shr 12) or $E0); theUTF8Char[ 2] := char((( theUCS4Code shr 6) and $3F) or $80); theUTF8Char[ 3] := char(( theUCS4Code and $3F) or $80) end else if theUCS4Code <= $001FFFFF then begin theUTF8Char[ 0] := char( 4); theUTF8Char[ 1] := char(( theUCS4Code shr 18) or $F0); theUTF8Char[ 2] := char((( theUCS4Code shr 12) and $3F) or $80); theUTF8Char[ 3] := char((( theUCS4Code shr 6) and $3F) or $80); theUTF8Char[ 4] := char(( theUCS4Code and $3F) or $80) end else if theUCS4Code <= $03FFFFFF then begin theUTF8Char[ 0] := char( 5); theUTF8Char[ 1] := char(( theUCS4Code shr 24) or $F8); theUTF8Char[ 2] := char((( theUCS4Code shr 18) and $3F) or $80); theUTF8Char[ 3] := char((( theUCS4Code shr 12) and $3F) or $80); theUTF8Char[ 4] := char((( theUCS4Code shr 6) and $3F) or $80); theUTF8Char[ 5] := char(( theUCS4Code and $3F) or $80) end else begin theUTF8Char[ 0] := char( 6); theUTF8Char[ 1] := char(( theUCS4Code shr 30) or $FC); theUTF8Char[ 2] := char((( theUCS4Code shr 24) and $3F) or $80); theUTF8Char[ 3] := char((( theUCS4Code shr 18) and $3F) or $80); theUTF8Char[ 4] := char((( theUCS4Code shr 12) and $3F) or $80); theUTF8Char[ 5] := char((( theUCS4Code shr 6) and $3F) or $80); theUTF8Char[ 6] := char(( theUCS4Code and $3F) or $80) end; for theIndex := ORD( theUTF8Char[ 0]) + 1 to 6 do theUTF8Char[ theIndex] := char( 0) end;
und zurück
procedure GetUFT8CountBits ( theLeadingChar : Char; var theLeadingBitCount : Int32; var theLeadingMask : Int32); var theCountMask : Int32; theBitFlag : boolean; begin theLeadingBitCount := 0; theCountMask := $080; theLeadingMask := $07F; repeat theBitFlag := ORD( theLeadingChar) and theCountMask = theCountMask; if theBitFlag then begin theLeadingMask := theLeadingMask shr 1; theCountMask := theCountMask shr 1; theLeadingBitCount := theLeadingBitCount + 1 end until ( not theBitFlag) or ( theLeadingBitCount = 6) end;
procedure UFT8CharToUCS4 ( var theVarCharPtr : PackedCharPtr; var theVarCharCount : Int32; var theUCS4Code : UCS4Code; var theErrorFlag : boolean); var theLeadingMask : Int32; theByteLength : Int32; theBitShift : Int32; theIndex : Int32; theMaskedValue : Int32; theChar : char; begin theUCS4Code := 0; theErrorFlag := False; if ( theVarCharPtr = nil) or ( theVarCharCount = 0) then theErrorFlag := True else begin theChar := theVarCharPtr^[ 0]; if ORD( theChar) <= $07F then begin theUCS4Code := ORD( theChar); IncPtr ( theVarCharPtr, 1); theVarCharCount := theVarCharCount - 1 end else begin GetUFT8CountBits ( theChar, theByteLength, theLeadingMask); if ( theByteLength < 2) or ( theByteLength > theVarCharCount) then theErrorFlag := True else begin theBitShift := ( theByteLength - 1) * 6; theMaskedValue := ORD( theChar) and theLeadingMask; theUCS4Code := theMaskedValue shl theBitShift; IncPtr ( theVarCharPtr, 1); theVarCharCount := theVarCharCount - 1; theIndex := 2; while ( theIndex <= theByteLength) and not theErrorFlag do begin theChar := theVarCharPtr^[ 0]; if ORD( theChar) and $0C0 <> $080 then theErrorFlag := True else begin theMaskedValue := ORD( theChar) and $3F; theBitShift := theBitShift - 6; theUCS4Code := theUCS4Code or ( theMaskedValue shl theBitShift); theIndex := theIndex + 1; IncPtr ( theVarCharPtr, 1); theVarCharCount := theVarCharCount - 1 end end; end end end end;
Adriaan van Os