[Tustep-Liste] FDF in utf8 oder ansi?

"René@Uni" tobn2701 at uni-trier.de
Di Jul 8 10:28:39 CEST 2014


Hallo Herr Stahl,

falls es keine ByteOrderMark am Anfang der potentiellen UTF-8 codierten 
Datei gibt und Sie auch nicht selbst in ihre decodierte(n) Datei(en) 
begutachten wollen, um Automatisierung zu ermöglichen,

so müsste es in Tuscript eine Möglichkeit geben, die Byte-Sequenzen von 
UTF-8 zu untersuchen, denn für den ANSI-Bereich (Windows Latin1, CP1252) 
größer als 7F benutzt ANSI wie gehabt ein Byte während UTF-8 schon auf 
zwei Byte umschaltet:

  * *0xxxxxxx*  ASCII < 0x80 (128)
  * *110xxxxx 10xxxxxx*  2-byte >= 0x80 [1]

Wie man jetzt genau mit Tuscript nach diesem Zweier-Byte suchen kann, 
ist mir noch nicht klar. Ich vermute, man könnte evtl. eine Datei mit 
den Zeichen des eben genannten 2-Byte-Bereichs von 0x80 bis 0xFF UTF-8 
codiert anlegen, jedes Zeichen mit einem (ASCII-)Separator versehen, 
dieselbe Datei nun wiederum als ASCII interpretieren, wobei dann Müll 
wie ?"" SEPARATOR "wieder Müll" herauskommt. Nach diesem Datenmüll 
könnten Sie dann in ihren Dateien suchen. Wenn er vorkommt, dann UTF-8, 
ansonsten ANSI.

Viele Grüße,
René Tobner

[1] http://codesnipers.com/?q=node/68


On 07.07.2014 20:11, stahl at germanistik.uni-wuerzburg.de wrote:
> Diskussionsforum Tustep-Liste
> Weitere Informationen: www.itug.de
> ------------------------------------------------------------
>
> Liebe Tustep-Liste-Leserinnen und -Leser,
>
> mich beschäftigt derzeit ein Problem im Zusammenhang mit dem 
> Datenimport nach Tustep. Wie kann vor dem Aufruf des 
> Umwandle-Kommandos feststellen, ob eine Fremddatei utf8- oder 
> ansi-mäßig gespeichert ist? Wenn jemand eine Idee hat, wäre ich um 
> Hinweise dankbar.
>
> Herzliche Grüße,
> P.Stahl
>

-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://lists.itug.de/pipermail/tustep-liste/attachments/20140708/e082a4b0/attachment.htm>


Mehr Informationen über die Mailingliste Tustep-Liste