<html>
<head>
<meta content="text/html; charset=ISO-8859-1"
http-equiv="Content-Type">
</head>
<body text="#000000" bgcolor="#FFFFFF">
Hallo Herr Stahl,<br>
<br>
falls es keine ByteOrderMark am Anfang der potentiellen UTF-8
codierten Datei gibt und Sie auch nicht selbst in ihre decodierte(n)
Datei(en) begutachten wollen, um Automatisierung zu ermöglichen,<br>
<br>
so müsste es in Tuscript eine Möglichkeit geben, die Byte-Sequenzen
von UTF-8 zu untersuchen, denn für den ANSI-Bereich (Windows Latin1,
CP1252) größer als 7F benutzt ANSI wie gehabt ein Byte während UTF-8
schon auf zwei Byte umschaltet:<br>
<br>
<ul>
<li><strong>0xxxxxxx</strong> ASCII < 0x80 (128)</li>
<li><strong>110xxxxx 10xxxxxx</strong> 2-byte >= 0x80
[1]<br>
</li>
</ul>
Wie man jetzt genau mit Tuscript nach diesem Zweier-Byte suchen
kann, ist mir noch nicht klar. Ich vermute, man könnte evtl. eine
Datei mit den Zeichen des eben genannten 2-Byte-Bereichs von 0x80
bis 0xFF UTF-8 codiert anlegen, jedes Zeichen mit einem
(ASCII-)Separator versehen, dieselbe Datei nun wiederum als ASCII
interpretieren, wobei dann Müll wie "" SEPARATOR "wieder Müll"
herauskommt. Nach diesem Datenmüll könnten Sie dann in ihren Dateien
suchen. Wenn er vorkommt, dann UTF-8, ansonsten ANSI.<br>
<br>
Viele Grüße,<br>
René Tobner<br>
<br>
[1] <a class="moz-txt-link-freetext" href="http://codesnipers.com/?q=node/68">http://codesnipers.com/?q=node/68</a><br>
<br>
<br>
<div class="moz-cite-prefix">On 07.07.2014 20:11,
<a class="moz-txt-link-abbreviated" href="mailto:stahl@germanistik.uni-wuerzburg.de">stahl@germanistik.uni-wuerzburg.de</a> wrote:<br>
</div>
<blockquote
cite="mid:20140707201144.75926mgvb7sbo9uo@webmail.uni-wuerzburg.de"
type="cite">Diskussionsforum Tustep-Liste
<br>
Weitere Informationen: <a class="moz-txt-link-abbreviated" href="http://www.itug.de">www.itug.de</a>
<br>
------------------------------------------------------------
<br>
<br>
Liebe Tustep-Liste-Leserinnen und -Leser,
<br>
<br>
mich beschäftigt derzeit ein Problem im Zusammenhang mit dem
Datenimport nach Tustep. Wie kann vor dem Aufruf des
Umwandle-Kommandos feststellen, ob eine Fremddatei utf8- oder
ansi-mäßig gespeichert ist? Wenn jemand eine Idee hat, wäre ich um
Hinweise dankbar.
<br>
<br>
Herzliche Grüße,
<br>
P.Stahl
<br>
<br>
</blockquote>
<br>
</body>
</html>