[Tustep-Liste] Geschachtelte Tags auflösen
Niels Bohnert
niels.bohnert at gmx.de
Mo Dez 13 10:31:58 CET 2010
Sehr geehrter Herr Stahl,
eine Möglichkeit, Tags mit Hilfe eines KOPIERE zu indizieren, wäre
vielleicht folgende:
#ko,QUELLE,ZIEL,-,+,*
sws 1 2
ws+ 1 2
gtu 1 |<<add>>|<</add>>|<<aee>>|<</aee>>|
ta+ 1 |<<add>>|<</add>>|<<aee>>|<</aee>>|
zf 1 |<<add>>|<</add>>|<<aee>>|<</aee>>|
erg 1 |0|
* Die aktuelle Kennung ist als s4-te zum Parameter zf
* angegeben; sie ist also im h0-ten dort angegebenen
* Paar die h1-te Kennung.
rr 1 h0 = (s4 + 1) / 2; h1 = min ( s4, 2 - mod(s4,2) );
rr 1 if (h1.eq.2) then; i0 = b(h0); b(h0) = b(h0) - 1;
rr 1 else; b(h0) = b(h0) + h1; i0 = b(h0); endif;
eiv 1 i0
mtd 1 1
rr 2 if (ws1.eq.1) goto 9;
mth 2 3
spw 29
spn 17
sp2 17
xxx |<>>/<<></add|<<>=03add>=01|<>>/<<></aee|<<>=03aee>=01|
*eof
QUELLE enthalte folgende Daten:
xx <add> aa <aee> <add> <aee> bb <add> cc </add> bb </aee> </add> aa
</add> xx </aee>
Dann steht nach der Ausführung des KOPIERE in ZIEL der Satz:
xx <add1> aa <aee1> <add2> <aee2> bb <add3> cc </add3> bb </aee2>
</add2> aa </add1> xx </aee1>
Mit freundlichen Grüßen
Niels Bohnert
On 12.12.2010 15:42, stahl at germanistik.uni-wuerzburg.de wrote:
> Diskussionsforum Tustep-Liste
> Weitere Informationen: www.itug.de
> ------------------------------------------------------------
>
> Liebe Listen-Leserinnen und -Leser,
>
> bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das
> Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht
> in den Quelldaten beispielsweise so aus:
>
> xx <add> aa <add> bb> <add> cc </add> bb </add> aa </add> xx
>
> Wie kann ich herausfinden, welche Anfang- und Ende-Tags
> zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus
>
> xx <add1> aa <add2> bb <add3> cc </add3> bb </add2> aa </add1> xx
>
> zu machen, könnte ich die Tags zuverlässig auflösen.
>
> Ganz so einfach, wie oben dargestellt, sind die Quelldaten freilich
> nicht: Die add-Tags können unterschiedliche Attribute haben und der
> sonstige Text ist mit einer Vielzahl an Tags zersetzt.
>
> Für Hinweise wäre ich Ihnen sehr dankbar.
>
> Mit besten Grüßen
> P.Stahl
>
> ------------------------------------------------------------
> Tustep-Liste at itug.de
> https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste
>
--
Dr. Niels Bohnert
Institut für Cusanus-Forschung
Domfreihof 3
D-54290 Trier
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://lists.itug.de/pipermail/tustep-liste/attachments/20101213/99da0c15/attachment.htm>
Mehr Informationen über die Mailingliste Tustep-Liste