Frage |
Welcher Zeichensatz sollte für Quelltext verwendet werden, der (aus welchen Gründen auch immer - z. B. in Kommentaren) Zeichen jenseites der 7-Bit-Grenze enthält?
Meinungen |
Grundsätzlich sollte man vermeiden, 8-Bit-Zeichen in Quellcode einzubauen. Verboten sein sollte es in den Teilen, die vom Compiler wirklich übersetzt werden (z. B. in Strings). Es läßt sich jedoch nicht immer vermeiden, solche Zeichen in Kommentaren einzusetzen. Für die Verwendung in Strings sollten Konstanten herangezogen werden, die über die '\u00....'-Notation erstellt werden können oder alternativ sollten längere Strings aus Resources-Dateien geladen werden, die z. B. incl. Codepage-Angabe in XML abgespeichert sein könnten. -- ChristianStüdemann?
In SpracheJava haben wir uns auf UTF-8 geeinigt, da wir unsere Software auch für China internationalisieren müssen. -- ChristianStüdemann?
Das kommt darauf an, in welcher Sprache, für welche Sparache, welchem Betriebssystem und für welchen Zweck man programmiert. Es gibt Sprachen (zB. PLI), welche keine Möglichkeit bieten, escapete Hexzeichen in Strings einzugeben. -- MikeTheGuru?
Im Quelltext das, was der Compiler versteht (siehe Dokumentation), in Kommentaren was der Editor unterstützt. Es ist eigentlich an der Zeit, dass die Antwort in beiden Fällen "Unicode" ist. Praktisch wohl zur Zeit eher UTF-8 in Kommentaren und sprachabhängige Escapesequenzen im Code.