From schaelkle at zdv.uni-tuebingen.de Mon Dec 6 09:39:58 2010 From: schaelkle at zdv.uni-tuebingen.de (=?iso-8859-1?Q?Kuno_Sch=E4lkle?=) Date: Mon, 6 Dec 2010 09:39:58 +0100 Subject: [Tustep-Liste] TUSTEP-Version 2011 Message-ID: <867E7AB0E6B741C09E8BC8BFEF5D3674@bimbo> Liebe TUSTEP-Nutzer/innen, die TUSTEP-Version 2011 ist fertig und zum Abholen unter https://lddv.zdv.uni-tuebingen.de/tustep/order bereitgestellt. CD-Bestellungen können über denselben Link erfolgen. Aus organisatorischen Gründen können die CDs jedoch erst Anfang Januar verschickt werden. Viel Erfolg mit der neuen TUSTEP-Version. Kuno Schälkle From gottfried.reeg at fu-berlin.de Tue Dec 7 13:43:25 2010 From: gottfried.reeg at fu-berlin.de (Reeg, Gottfried) Date: Tue, 7 Dec 2010 13:43:25 +0100 Subject: [Tustep-Liste] Funktion zum Vergleichen zweier Variablen Message-ID: Liebe Tustepianer, zwei Variablen sollen miteinander verglichen werden, um zu sehen, an welcher Stelle sie voneinander abweichen. Gibt es hierzu eine Makrofunktion? COMPARE vergleicht ja nur Dateien. Gruß aus Berlin Gottfried Reeg From stahl at germanistik.uni-wuerzburg.de Sun Dec 12 15:42:41 2010 From: stahl at germanistik.uni-wuerzburg.de (stahl at germanistik.uni-wuerzburg.de) Date: Sun, 12 Dec 2010 15:42:41 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= Message-ID: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> Liebe Listen-Leserinnen und -Leser, bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht in den Quelldaten beispielsweise so aus: xx aa bb> cc bb aa xx Wie kann ich herausfinden, welche Anfang- und Ende-Tags zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus xx aa bb cc bb aa xx zu machen, könnte ich die Tags zuverlässig auflösen. Ganz so einfach, wie oben dargestellt, sind die Quelldaten freilich nicht: Die add-Tags können unterschiedliche Attribute haben und der sonstige Text ist mit einer Vielzahl an Tags zersetzt. Für Hinweise wäre ich Ihnen sehr dankbar. Mit besten Grüßen P.Stahl From schaelkle at zdv.uni-tuebingen.de Mon Dec 13 09:28:06 2010 From: schaelkle at zdv.uni-tuebingen.de (=?iso-8859-1?Q?Kuno_Sch=E4lkle?=) Date: Mon, 13 Dec 2010 09:28:06 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= In-Reply-To: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> References: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> Message-ID: Lieber Herr Stahl, >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht in den Quelldaten beispielsweise so aus: xx aa bb> cc bb aa xx Wie kann ich herausfinden, welche Anfang- und Ende-Tags zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus xx aa bb cc bb aa xx zu machen, könnte ich die Tags zuverlässig auflösen. <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< Sie möchten eine Lösung mit #KOPIERE. Für den Fall, dass Sie keine solche erhalten, hier eine Lösung mit TUSCIPT: $$! quelle, ziel $$ MODE VARIABLE SET status = CHECK (quelle, READ, TUSTEP) ERROR/STOP "QUELLE: ", status SET status = CHECK (ziel, WRITE, TUSTEP) ERROR/STOP "ZIEL: ", status ACCESS q: READ/STREAM/RECORDS "{quelle}" ... s.z/u, atag+txt+etag, typ, stack ACCESS z: WRITE/ERASE/STREAM "{ziel}" ... s.z/u, atag+txt+etag, num COMPILE LOOP/999999 READ/EXIT q IF (atag.HN."add") THEN SET count = COUNT (stack, ":<>:") SET name = CONCAT ("add", count) SET atag = SET_TAG_NAME (atag, name) ENDIF IF (etag.HN."add") THEN SET count = COUNT (stack, ":<>:") SET name = CONCAT ("add", count) SET etag = SET_TAG_NAME (etag, name) ENDIF WRITE z ENDLOOP ENDCOMPILE ENDACCESS q ENDACCESS z Herzliche Gruesse Kuno Schaelkle From gasperlin at gasperlin.de Mon Dec 13 10:23:53 2010 From: gasperlin at gasperlin.de (Oliver Gasperlin) Date: Mon, 13 Dec 2010 10:23:53 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= In-Reply-To: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> References: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> Message-ID: <000701cb9aa7$75e0bdf0$61a239d0$@de> Lieber Herr Stahl, hier noch eine andere TUSCRIPT-Lösung, bei der einfach nur die Records gelesen werden: #makro $$ MODE TUSCRIPT SET n = 1 ACCESS q: READ/RECORDS "e2" sn.zn/un, txt, anz ACCESS z: WRITE/ERASE/RECORDS "e3" sn.zn/un, txt LOOP/999999 READ/NEXT/EXIT q SET txt = MARK (txt, "\\", "|<>/<<>=03|") WRITE/CLEAR z ENDLOOP ENDACCESS q ENDACCESS z *eof Das EXCHANGE kann natürlich auch so angepasst werden, dass XML-konforme Attribute mit Zähler-Werten entstehen. Das Ding ist, so wie es da steht, lauffähig und braucht (nach Anpassung der Dateinamen) nur in eine Datei kopiert und ausgeführt zu werden. Mit besten Grüßen Oliver Gasperlin "xx aa bb> cc bb aa xx daraus xx aa bb cc bb aa xx" ------------------------------------------------------------ Tustep-Liste at itug.de https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste From niels.bohnert at gmx.de Mon Dec 13 10:31:58 2010 From: niels.bohnert at gmx.de (Niels Bohnert) Date: Mon, 13 Dec 2010 10:31:58 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= In-Reply-To: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> References: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> Message-ID: <4D05E80E.10605@gmx.de> Sehr geehrter Herr Stahl, eine Möglichkeit, Tags mit Hilfe eines KOPIERE zu indizieren, wäre vielleicht folgende: #ko,QUELLE,ZIEL,-,+,* sws 1 2 ws+ 1 2 gtu 1 |<>|<>|<>|<>| ta+ 1 |<>|<>|<>|<>| zf 1 |<>|<>|<>|<>| erg 1 |0| * Die aktuelle Kennung ist als s4-te zum Parameter zf * angegeben; sie ist also im h0-ten dort angegebenen * Paar die h1-te Kennung. rr 1 h0 = (s4 + 1) / 2; h1 = min ( s4, 2 - mod(s4,2) ); rr 1 if (h1.eq.2) then; i0 = b(h0); b(h0) = b(h0) - 1; rr 1 else; b(h0) = b(h0) + h1; i0 = b(h0); endif; eiv 1 i0 mtd 1 1 rr 2 if (ws1.eq.1) goto 9; mth 2 3 spw 29 spn 17 sp2 17 xxx |<>>/<<>=03add>=01|<>>/<<>=03aee>=01| *eof QUELLE enthalte folgende Daten: xx aa bb cc bb aa xx Dann steht nach der Ausführung des KOPIERE in ZIEL der Satz: xx aa bb cc bb aa xx Mit freundlichen Grüßen Niels Bohnert On 12.12.2010 15:42, stahl at germanistik.uni-wuerzburg.de wrote: > Diskussionsforum Tustep-Liste > Weitere Informationen: www.itug.de > ------------------------------------------------------------ > > Liebe Listen-Leserinnen und -Leser, > > bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das > Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht > in den Quelldaten beispielsweise so aus: > > xx aa bb> cc bb aa xx > > Wie kann ich herausfinden, welche Anfang- und Ende-Tags > zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus > > xx aa bb cc bb aa xx > > zu machen, könnte ich die Tags zuverlässig auflösen. > > Ganz so einfach, wie oben dargestellt, sind die Quelldaten freilich > nicht: Die add-Tags können unterschiedliche Attribute haben und der > sonstige Text ist mit einer Vielzahl an Tags zersetzt. > > Für Hinweise wäre ich Ihnen sehr dankbar. > > Mit besten Grüßen > P.Stahl > > ------------------------------------------------------------ > Tustep-Liste at itug.de > https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste > -- Dr. Niels Bohnert Institut für Cusanus-Forschung Domfreihof 3 D-54290 Trier -------------- nächster Teil -------------- Ein Dateianhang mit HTML-Daten wurde abgetrennt... URL: From stahl at germanistik.uni-wuerzburg.de Mon Dec 13 12:10:37 2010 From: stahl at germanistik.uni-wuerzburg.de (stahl at germanistik.uni-wuerzburg.de) Date: Mon, 13 Dec 2010 12:10:37 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= In-Reply-To: References: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> Message-ID: <20101213121037.88993ies2n9kul9p@webmail.uni-wuerzburg.de> Lieber Herr Bohnert, Gasperlin und Schälkle, für Ihre schnellen Lösungen für das Herstellen der Paarigkeit der Tags danke ich Ihnen vielmals. Jetzt können die Tags über die Nummer leicht weiterverarbeitet werden. Mit herzlichen Grüßen P.Stahl From kol at steinheim-institut.org Tue Dec 14 13:28:46 2010 From: kol at steinheim-institut.org (Thomas Kollatz) Date: Tue, 14 Dec 2010 13:28:46 +0100 Subject: [Tustep-Liste] Funktion zum Vergleichen zweier Variablen In-Reply-To: References: Message-ID: <5D1BEFAF-2C1E-4558-959B-A76A9BCB9E9B@steinheim-institut.org> Liebe Gottfried, liebe Liste, sehe deine Anfrage erst jetzt, und es hat noch niemand geantwortet, oder? > zwei Variablen sollen miteinander verglichen werden, um zu sehen, an welcher Stelle sie voneinander abweichen. > Gibt es hierzu eine Makrofunktion? ... ich glaube nein. Aber ich habe mir das auch schon mal gewünscht ... Compare vergleicht Dateien und .eq. stellt nur fest, ob zu vergleichende Variablen gleich sind, oder nicht. Man könnte natürlich zwei Variablen string für string durch einen loop jagen und sich dann irgendeine Markierung ausdenken, dazu habe ich mir letztes Jahr mal ein kleines Beispiel-Skript gebastelt, aber nie weiter ausgearbeitet, obwohl da noch drin wäre die Abweichung in Zeichen 3/4 in Zeile zwei als Zeilendreher zu markieren (sortieren, dann gleich, also Dreher), die Abweichung in Zeile 4 (hier steht was anderes) und Zeile fünf das Sondergut definieren könnte (das gibts nur in einer Version). Richtig komplex wirds aber dann, wenn Einschübe / Auslassungen / Sprungmarken in Variablen markiert werden sollen. Es geht gewiß, aber dann programmiert man eigentlich ein #ve für Variablen und dazu sind meine Winterabende leider zu kurz. Herzliche Grüße TK Hier das Ergebnis: --------------- Zeile 1: eins=eins Vergleich: zwei/zwie Zeile 2 Zeichen: 3: e i Zeile 2 Zeichen: 4: i e Zeile 3: drei=drei Vergleich: vier/sechs Zeile 4 Zeichen: 1: v s Zeile 4 Zeichen: 2: i e Zeile 4 Zeichen: 3: e c Zeile 4 Zeichen: 4: r h Zeile 4 Zeichen: 5: s Vergleich: fünf/ Zeile 5 Zeichen: 1: f Zeile 5 Zeichen: 2: ü Zeile 5 Zeichen: 3: n Zeile 5 Zeichen: 4: f Und hier das Skript: ----------------- $$ MODE TUSCRIPT MODE DATA $$ SET var1=* eins zwei drei vier fünf $$ SET var2=* eins zwie drei sechs $$ MODE TUSCRIPT LOOP n,v1=var1,v2=var2 IF (v1==v2) THEN PRINT "Zeile ",n,": ",v1,"=",v2 ELSE SET str_v1=STRINGS (v1,":<%:") SET str_v2=STRINGS (v2,":<%:") PRINT "Vergleich: ",v1,"/",v2 LOOP z,s1=str_v1,s2=str_v2 IF (s1!=s2) PRINT "Zeile ",n," Zeichen: ",z,": ",s1," ",s2 ENDLOOP ENDIF ENDLOOP drs Thomas Kollatz - wissenschaftlicher Mitarbeiter / research assistant * Salomon Ludwig Steinheim-Institut fuer deutsch-juedische Geschichte D-47057 Duisburg Geibelstr. 41 T 0203-370071 F 0203-373380 * Institut * Epigraphische Datenbank From kol at steinheim-institut.org Tue Dec 14 14:59:16 2010 From: kol at steinheim-institut.org (Thomas Kollatz) Date: Tue, 14 Dec 2010 14:59:16 +0100 Subject: [Tustep-Liste] =?iso-8859-1?q?Geschachtelte_Tags_aufl=F6sen?= In-Reply-To: <20101213121037.88993ies2n9kul9p@webmail.uni-wuerzburg.de> References: <20101212154241.18276my8li5bicm9@webmail.uni-wuerzburg.de> <20101213121037.88993ies2n9kul9p@webmail.uni-wuerzburg.de> Message-ID: <2620E1B6-D62C-40DD-A0CA-2AEADE0063ED@steinheim-institut.org> Liebe Liste, > für Ihre schnellen Lösungen für das Herstellen der Paarigkeit der Tags danke ich Ihnen vielmals. Jetzt können die Tags über die Nummer leicht weiterverarbeitet werden. ich war gestern unterwegs und bin darum mit meiner Lösung heute natürlich viel zu langsam. Da es mir Spass gemacht hat, habe ich mir das "Problem" etwas erschwert (mehr Tags, die noch dazu unterschiedlich behandelt werden sollen: Nix ändern / Name ändern / Attribut einfügen). Nicht ganz uninteressant scheint mir die Möglichkeit zu sein, mit TUSCRIPT direkt eine Datei mit Migrationshintergrund (FDF früher sdf) einzulesen und auch wieder in eine solche auszugeben (also ohne den Umweg über umwandle ...). Herzliche Grüße Thomas Kollatz ----> $$- Aufgabe: $$- 1. tagname "add" und "bcd" hierarchieabhängig ändern in $$- ,,, - alle andern unverändert ausgeben $$- 2. tagname "bdd" mit Hierarchiezähler im Attribut versehen: $$- $$! quelle=test.xml,ziel=ziel.xml $$ MODE TUSCRIPT ERROR/STOP CREATE (quelle,seq-o,-std-) ERROR/STOP CREATE (ziel,seq-o,-std-) -*** Testdatei FILE/ERASE $quelle DATA xxaamir passiert nixbbccmir passiert auch nixbbaa DATA xx aaabbbmir soll nix passieren DATA yyycccddddddddd ENDFILE COMPILE ACCESS q: READ/STREAM/RECORDS $quelle s.z/u,atag+text+etag,typ,stack ACCESS z: WRITE/ERASE/STREAM $ziel s.z/u,atag+text+etag --> Falls $quelle und/oder $ziel keine Tustepdatei ist, dann geht es so: --> ACCESS q: READ/STREAM/RECORDS/UTF8 $quelle s,atag+text+etag,typ,stack --> ACCESS z: WRITE/ERASE/STREAM/UTF8 $ziel s,atag+text+etag LOOP/9999 READ/EXIT q IF (atag.hn."add","bcd","bdd") THEN SET tagintabl=CONCAT (":<",atag,">:") BUILD S_TABLE tagtable = $tagintabl SET count=COUNT (stack,tagtable) RELEASE S_TABLE tagtable SET tagname=GET_TAG_NAME (atag) IF (atag.hn."bdd") THEN SET atag=SET_ATTRIBUTE (tagname,"nr",count) ELSE SET name=CONCAT (tagname,count) SET atag=SET_TAG_NAME (atag,name) ENDIF ENDIF IF (etag.hn."add","bcd","bdd") THEN SET tagname=GET_TAG_NAME (etag) IF (etag.hn."bdd") CONTINUE SET tagsintabl=CONCAT (":<<",tagname,">>:") BUILD S_TABLE tagtable = $tagintabl SET count=COUNT (stack,tagtable) RELEASE S_TABLE tagtable SET name=CONCAT (tagname,count) SET etag=SET_TAG_NAME (etag,name) ENDIF WRITE z ENDLOOP ENDACCESS q ENDACCESS z ENDCOMPILE EXECUTE #ve,{quelle},{ziel},<>,,,,+ From lohmeier at sub.uni-goettingen.de Thu Dec 23 17:58:34 2010 From: lohmeier at sub.uni-goettingen.de (Felix Lohmeier) Date: Thu, 23 Dec 2010 17:58:34 +0100 Subject: [Tustep-Liste] TextGrid Newsletter: Version 1.0 im Sommer 2011 Message-ID: <133A7821CAED4D57A467A8EAD36E7C2C@sub.local> Liebe Kolleginnen und Kollegen, wir freuen uns Ihnen heute die neunte Ausgabe des TextGrid-Newsletters präsentieren zu können: http://www.textgrid.de/newsletter.html TextGrid wird im Juni 2011 eine stabile Version 1.0 veröffentlichen, die für den produktiven Einsatz in Forschungsverbünden vorgesehen ist. In diesem Zusammenhang veranstalten wir die TextGrid-Tage 2011 mit Festvorträgen, Schulungen und Workshops am 12. und 13. Juli 2011 in Göttingen. Der Newsletter enthält Informationen zu folgenden Themen: * Roadmap zur Version 1.0 * TextGrid-Tage am 12./13. Juli 2011 * Pressemappe mit Experten-Interviews TextGrid ist ein Forschungsverbund, dessen Ziel es ist, den Zugang und den Austausch von Informationen in den Geistes- und Kulturwissenschaften mit Hilfe moderner Informationstechnologie (Grid) zu unterstützen. Seit 2006 wird eine internetbasierte Plattform aufgebaut, die Wissenschaftlern Werkzeuge und Dienste für die Auswertung von textbasierten Daten in unterschiedlichen digitalen Archiven bietet - unabhängig von Datenform, Softwareausstattung oder Standort. TextGrid entwickelt eine Virtuelle Forschungsumgebung für Philologen, Linguisten, Musikwissenschaftler und Kunsthistoriker. Der Newsletter wird von den TextGrid-Partnern kooperativ erstellt. Sie können ihn auf der TextGrid-Homepage unter http://www.textgrid.de/newsletter/abonnieren.html abonnieren, bzw. sich davon abmelden. Dort haben Sie auch Zugriff auf alle früheren Newsletter (http://www.textgrid.de/newsletter/archiv.html). Freundliche Grüße, Ihr TextGrid-Team