<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    Hallo Herr Stahl,<br>
    <br>
    falls es keine ByteOrderMark am Anfang der potentiellen UTF-8
    codierten Datei gibt und Sie auch nicht selbst in ihre decodierte(n)
    Datei(en) begutachten wollen, um Automatisierung zu ermöglichen,<br>
    <br>
    so müsste es in Tuscript eine Möglichkeit geben, die Byte-Sequenzen
    von UTF-8 zu untersuchen, denn für den ANSI-Bereich (Windows Latin1,
    CP1252) größer als 7F benutzt ANSI wie gehabt ein Byte während UTF-8
    schon auf zwei Byte umschaltet:<br>
    <br>
    <ul>
      <li><strong>0xxxxxxx</strong>  ASCII < 0x80 (128)</li>
      <li><strong>110xxxxx 10xxxxxx</strong>  2-byte >= 0x80      
        [1]<br>
      </li>
    </ul>
    Wie man jetzt genau mit Tuscript nach diesem Zweier-Byte suchen
    kann, ist mir noch nicht klar. Ich vermute, man könnte evtl. eine
    Datei mit den Zeichen des eben genannten 2-Byte-Bereichs von 0x80
    bis 0xFF UTF-8 codiert anlegen, jedes Zeichen mit einem
    (ASCII-)Separator versehen, dieselbe Datei nun wiederum als ASCII
    interpretieren, wobei dann Müll wie "" SEPARATOR "wieder Müll"
    herauskommt. Nach diesem Datenmüll könnten Sie dann in ihren Dateien
    suchen. Wenn er vorkommt, dann UTF-8, ansonsten ANSI.<br>
    <br>
    Viele Grüße,<br>
    René Tobner<br>
    <br>
    [1] <a class="moz-txt-link-freetext" href="http://codesnipers.com/?q=node/68">http://codesnipers.com/?q=node/68</a><br>
    <br>
    <br>
    <div class="moz-cite-prefix">On 07.07.2014 20:11,
      <a class="moz-txt-link-abbreviated" href="mailto:stahl@germanistik.uni-wuerzburg.de">stahl@germanistik.uni-wuerzburg.de</a> wrote:<br>
    </div>
    <blockquote
      cite="mid:20140707201144.75926mgvb7sbo9uo@webmail.uni-wuerzburg.de"
      type="cite">Diskussionsforum Tustep-Liste
      <br>
      Weitere Informationen: <a class="moz-txt-link-abbreviated" href="http://www.itug.de">www.itug.de</a>
      <br>
      ------------------------------------------------------------
      <br>
      <br>
      Liebe Tustep-Liste-Leserinnen und -Leser,
      <br>
      <br>
      mich beschäftigt derzeit ein Problem im Zusammenhang mit dem
      Datenimport nach Tustep. Wie kann vor dem Aufruf des
      Umwandle-Kommandos feststellen, ob eine Fremddatei utf8- oder
      ansi-mäßig gespeichert ist? Wenn jemand eine Idee hat, wäre ich um
      Hinweise dankbar.
      <br>
      <br>
      Herzliche Grüße,
      <br>
      P.Stahl
      <br>
      <br>
    </blockquote>
    <br>
  </body>
</html>