<html>

  <head>

    <meta content="text/html; charset=ISO-8859-1"

      http-equiv="Content-Type">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    Hallo Herr Stahl,<br>

    <br>

    falls es keine ByteOrderMark am Anfang der potentiellen UTF-8

    codierten Datei gibt und Sie auch nicht selbst in ihre decodierte(n)

    Datei(en) begutachten wollen, um Automatisierung zu ermöglichen,<br>

    <br>

    so müsste es in Tuscript eine Möglichkeit geben, die Byte-Sequenzen

    von UTF-8 zu untersuchen, denn für den ANSI-Bereich (Windows Latin1,

    CP1252) größer als 7F benutzt ANSI wie gehabt ein Byte während UTF-8

    schon auf zwei Byte umschaltet:<br>

    <br>

    <ul>

      <li><strong>0xxxxxxx</strong>  ASCII < 0x80 (128)</li>

      <li><strong>110xxxxx 10xxxxxx</strong>  2-byte >= 0x80      

        [1]<br>

      </li>

    </ul>

    Wie man jetzt genau mit Tuscript nach diesem Zweier-Byte suchen

    kann, ist mir noch nicht klar. Ich vermute, man könnte evtl. eine

    Datei mit den Zeichen des eben genannten 2-Byte-Bereichs von 0x80

    bis 0xFF UTF-8 codiert anlegen, jedes Zeichen mit einem

    (ASCII-)Separator versehen, dieselbe Datei nun wiederum als ASCII

    interpretieren, wobei dann Müll wie "ï»¿" SEPARATOR "wieder Müll"

    herauskommt. Nach diesem Datenmüll könnten Sie dann in ihren Dateien

    suchen. Wenn er vorkommt, dann UTF-8, ansonsten ANSI.<br>

    <br>

    Viele Grüße,<br>

    René Tobner<br>

    <br>

    [1] <a class="moz-txt-link-freetext" href="http://codesnipers.com/?q=node/68">http://codesnipers.com/?q=node/68</a><br>

    <br>

    <br>

    <div class="moz-cite-prefix">On 07.07.2014 20:11,

      <a class="moz-txt-link-abbreviated" href="mailto:stahl@germanistik.uni-wuerzburg.de">stahl@germanistik.uni-wuerzburg.de</a> wrote:<br>

    </div>

    <blockquote

      cite="mid:20140707201144.75926mgvb7sbo9uo@webmail.uni-wuerzburg.de"

      type="cite">Diskussionsforum Tustep-Liste

      <br>

      Weitere Informationen: <a class="moz-txt-link-abbreviated" href="http://www.itug.de">www.itug.de</a>

      <br>

      ------------------------------------------------------------

      <br>

      <br>

      Liebe Tustep-Liste-Leserinnen und -Leser,

      <br>

      <br>

      mich beschäftigt derzeit ein Problem im Zusammenhang mit dem

      Datenimport nach Tustep. Wie kann vor dem Aufruf des

      Umwandle-Kommandos feststellen, ob eine Fremddatei utf8- oder

      ansi-mäßig gespeichert ist? Wenn jemand eine Idee hat, wäre ich um

      Hinweise dankbar.

      <br>

      <br>

      Herzliche Grüße,

      <br>

      P.Stahl

      <br>

      <br>

    </blockquote>

    <br>

  </body>

</html>