[Tustep-Liste] Geschachtelte Tags auflösen

Mo Dez 13 10:31:58 CET 2010

Sehr geehrter Herr Stahl,

eine Möglichkeit, Tags mit Hilfe eines KOPIERE zu indizieren, wäre 
vielleicht folgende:

#ko,QUELLE,ZIEL,-,+,*
sws       1 2
ws+   1   2
gtu   1   |<<add>>|<</add>>|<<aee>>|<</aee>>|
ta+   1   |<<add>>|<</add>>|<<aee>>|<</aee>>|
zf    1   |<<add>>|<</add>>|<<aee>>|<</aee>>|
erg   1   |0|
         * Die aktuelle Kennung ist als s4-te zum Parameter zf
         * angegeben; sie ist also im h0-ten dort angegebenen
         * Paar die h1-te Kennung.
rr    1   h0 = (s4 + 1) / 2; h1 = min ( s4, 2 - mod(s4,2) );
rr    1   if (h1.eq.2) then; i0 = b(h0); b(h0) = b(h0) - 1;
rr    1   else; b(h0) = b(h0) + h1; i0 = b(h0); endif;
eiv   1   i0
mtd   1   1
rr    2   if (ws1.eq.1) goto 9;
mth   2   3
spw       29
spn       17
sp2       17
xxx       |<>>/<<></add|<<>=03add>=01|<>>/<<></aee|<<>=03aee>=01|
*eof

QUELLE enthalte folgende Daten:

xx <add> aa <aee> <add> <aee> bb <add> cc </add> bb </aee> </add> aa 
</add> xx </aee>

Dann steht nach der Ausführung des KOPIERE in ZIEL der Satz:

xx <add1> aa <aee1> <add2> <aee2> bb <add3> cc </add3> bb </aee2> 
</add2> aa </add1> xx </aee1>

Mit freundlichen Grüßen

Niels Bohnert

On 12.12.2010 15:42, stahl at germanistik.uni-wuerzburg.de wrote:
> Diskussionsforum Tustep-Liste
> Weitere Informationen: www.itug.de
> ------------------------------------------------------------
>
> Liebe Listen-Leserinnen und -Leser,
>
> bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das 
> Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht 
> in den Quelldaten beispielsweise so aus:
>
>   xx <add> aa <add> bb> <add> cc </add> bb </add> aa </add> xx
>
> Wie kann ich herausfinden, welche Anfang- und Ende-Tags 
> zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus
>
>   xx <add1> aa <add2> bb <add3> cc </add3> bb </add2> aa </add1> xx
>
> zu machen, könnte ich die Tags zuverlässig auflösen.
>
> Ganz so einfach, wie oben dargestellt, sind die Quelldaten freilich 
> nicht: Die add-Tags können unterschiedliche Attribute haben und der 
> sonstige Text ist mit einer Vielzahl an Tags zersetzt.
>
> Für Hinweise wäre ich Ihnen sehr dankbar.
>
> Mit besten Grüßen
> P.Stahl
>
> ------------------------------------------------------------
> Tustep-Liste at itug.de
> https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste
>

-- 
Dr. Niels Bohnert
Institut für Cusanus-Forschung
Domfreihof 3
D-54290 Trier

-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://lists.itug.de/pipermail/tustep-liste/attachments/20101213/99da0c15/attachment.htm>