[Tustep-Liste] Import von Word-Dateien

Kuno Sch�lkle Schaelkle at zdv.uni-tuebingen.de
Mo Mai 10 10:25:39 CEST 2004


Lieber Herr Giacomazzi,

schon einige Zeit ueberlege ich mir, wie man TUSTEP erweitern
kann, um XML-Daten besser bearbeiten zu koennen. Ueber-
legungen zu neuen Parametern in Kopiere waren nicht erfolgreich.
Erweiterungen in der Makrosprache schienen mir zielfuehrender
zu sein.

Nachdem ich mir Erweiterungen ausgedacht und sie teilweise
programmiert hatte, musste ich sie natuerlich auch austesten.
Damit ich zugleich feststellen kann, ob die Erweiterungen auch
praktikabel sind, wollte ich ein Testmakro schreiben, das eine
reale Aufgabe loest. Ich habe weiderholt bei einigen TUSTEP-
Nutzern nachgefragt, bin aber auf keine Aufgabe gestossen,
die man nicht auch mit Kopiere haette loesen koennen.

Einer der Angesprochenen hat mich darauf aufmerksam gemacht,
dass Word 2003 die Daten auch im XML-Format speichern kann.
Das hat meine Neugier geweckt. Ich habe mir Word 2003 besorgt
und die XML-Dateien angeschaut.

In Ermanglung einer anderen anspruchsvollen Aufgabe zum Testen
der Makro-Erweiterungen, habe ich ein Makro geschrieben, das
den Text aus einer solchen Datei herausholt. Auch die wichtigsten
Auszeichnungen liessen sich leicht beruecksichtigen. Zum Austesten
der bisher programmierten Erweiterungen hat sich diese Aufgabe
hervorragend geeignet.

Vielleicht sollte ich das zum Testen geschriebene Makro allgemein
zur Verfuegung stellen? Zuvor muss ich aber ueberpruefen, wie es
auf "reale" Word-Dateien reagiert. Deshalb bat ich in der ITUG-Liste
um solche Dateien.

Sollte sich herausstellen, dass das Makro auch fuer nicht-triviale
Word-Dateien brauchbare Ergebnisse liefert, werde ich es zur Ver-
fuegung stellen. Es waere ein zufaelliges Nebenprodukt meiner
Bemuehungen, die Moeglichkeiten zu Bearbeitung von XML-Daten
in TUSTEP zu verbessern.

Mit freundlichen Grüßen
Kuno Schälkle

> ------------------------------------------------------------
>
> Lieber Herr Schälkle,
>
>  > Ein Programm, das aus mit Word erstellten XML-Dateien
>  > ausser dem Text auch die wichtigsten Auszeichnungen
>  > herausfiltert, waere vermutlich hilfreich.
>
> ich habe genau dieses Programm Anfang des Jahres dem ZDV im Tausch gegen
> eine kommerzielle TUSTEP-Lizenz angeboten. Herr Ott lehnte mit der
> Begründung ab, daß es sich nicht um eine TUSTEP-Komponente, sondern um
> ein Add-In für ein fremdes Programm handeln würde. Das war allerdings
> kein Grund gegen die bisherige Distribution meines alten XML-Konverters
> mit TUSTEP seit 2001 oder nun für die Entwicklung eines neuen Konverters
> beim ZDV selbst.
>
> Der angebotene XML-Konverter unterstützt standardmäßig Unicode (UTF-8),
> bewältigt große Dateien ohne Probleme, bereitet Word-Tabellen für den
> Satz in TUSTEP auf, läuft auch unter nicht deutschem Windows, usw.
> Anders als beim XML-Export von Word 2003 wird nicht noch einmal das 10
> bis 20-fache an Auszeichnungen hinzugefügt, sondern reduziert.
>
> Für den eigenen Gebrauch habe ich eine zweite Version entwickelt, die
> gerade bei großen Dateien viel schneller ist (1-2 Sek. bei einer 5 MB
> großen Word-Datei) und vor allem bis ins kleinste Detail konfigurierbar
> ist; sie setzt keine Formatvorlagen voraus, um sachliche Auszeichnungen
> zu liefern. Denn das Problem bei Word ist die Definition dessen, was
> "die wichtigsten Auszeichnungen" sind. Diese variieren von Projekt zu
> Projekt (zum Teil, weil besondere Konventionen erforderlich sind, zum
> Teil, weil Konventionen nicht eingehalten werden, zum Teil, weil es
> keine Konventionen gibt) derart, daß im Grunde ein projektspezifischer
> Konverter, erforderlich ist, ein generischer nicht ausreicht. Ideal wäre
> eine Abstimmung von kontrollierter Erfassung und Konvertierung, aber das
> geht nun vermutlich zu weit. Interessenten können Sie gerne an mich wenden.
>
> Mit besten Grüßen,
>
> Giorgio Giacomazzi


Mehr Informationen über die Mailingliste Tustep-Liste