From tustep_saw_hoffert at mhlkg.de Fri Feb 7 14:36:35 2020 From: tustep_saw_hoffert at mhlkg.de (Michael Hoffert) Date: Fri, 7 Feb 2020 14:36:35 +0100 Subject: [Tustep-Liste] Zeichen neben Muster Message-ID: <8f62c7a2-a267-5a84-93a3-7e5bb2847489@mhlkg.de> Hallo Liste, ich habe einen Text und möchte die Zeichen haben, welche einem Muster voranstehen bzw. diesem folgen. Im Editor kann ich mir die Zeichen und die Muster ansehen zn,,,|?MUSTER?| aber ich hätte gerne eine Liste der Zeichen. Hat jemand solches schon einmal gemacht und kann mir einen Tipp geben, wie ich vorgehe oder gibt es ein einfaches Vorgehen mittels KOPIERE? Verschärfte Frage: Zwischen Muster und dem Zeichen können weitere tags stehen. Diese habe ich bisher einfach eliminiert, aber das geht bestimmt auch schöner. Bitte jetzt nicht lange grübeln und nur antworten, sollte es eine einfache Lösung geben. Gerne auch ein Hinweis, unter welchem Stichwort ich im Handbuch weitersuchen kann. Danke Michael Hoffert From schaelkle at zdv.uni-tuebingen.de Fri Feb 7 17:36:10 2020 From: schaelkle at zdv.uni-tuebingen.de (=?utf-8?Q?Kuno_Sch=C3=A4lkle?=) Date: Fri, 7 Feb 2020 17:36:10 +0100 Subject: [Tustep-Liste] Zeichen neben Muster In-Reply-To: <8f62c7a2-a267-5a84-93a3-7e5bb2847489@mhlkg.de> References: <8f62c7a2-a267-5a84-93a3-7e5bb2847489@mhlkg.de> Message-ID: <7056F502-B9B6-4F39-8CD1-1BF065CF7B01@zdv.uni-tuebingen.de> Lieber Herr Hoffert, > ich habe einen Text und möchte die Zeichen haben, welche einem Muster voranstehen bzw. diesem folgen. Im Editor kann ich mir die Zeichen und die Muster ansehen > > zn,,,|?MUSTER?| > > aber ich hätte gerne eine Liste der Zeichen. > > Bitte jetzt nicht lange grübeln und nur antworten, sollte es eine einfache Lösung geben. Gerne auch ein Hinweis, unter welchem Stichwort ich im Handbuch weitersuchen kann. möglicherweise wäre "KWIC-Index" das richtige Stichwort. Mit besten Grüßen Kuno Schälkle From tustep_saw_hoffert at mhlkg.de Mon Feb 10 11:59:59 2020 From: tustep_saw_hoffert at mhlkg.de (Michael Hoffert) Date: Mon, 10 Feb 2020 11:59:59 +0100 Subject: [Tustep-Liste] Zeichen neben Muster In-Reply-To: <7056F502-B9B6-4F39-8CD1-1BF065CF7B01@zdv.uni-tuebingen.de> References: <8f62c7a2-a267-5a84-93a3-7e5bb2847489@mhlkg.de> <7056F502-B9B6-4F39-8CD1-1BF065CF7B01@zdv.uni-tuebingen.de> Message-ID: Kuno Schälkle schrieb am 07.02.20 um 17:36: >> ich habe einen Text und möchte die Zeichen haben, >> welche einem Muster voranstehen bzw. diesem folgen. > > Wieviele Zeichen sollen es vor bzw. nach dem Muster sein? > >> aber ich hätte gerne eine Liste der Zeichen. > > Können Sie mir bitte eine kleine Beispieldatei schicken > und eine Datei mit dem gewünschten Ergebnis? > >> Verschärfte Frage: Zwischen Muster und dem Zeichen >> können weitere tags stehen. > > Hätten Sie da auch Beispiel? > > möglicherweise wäre "KWIC-Index" das richtige Stichwort. > > Mit besten Grüßen > Kuno Schälkle > Lieber Herr Schälkle, Liebe Liste, Die Daten liegen sowohl als XML-File als auch als UTF-8 codierter Plain-Text vor. Das gesuchte Zeichen ist das Rotunda-r welches in XML so: r und in UTF-8 (in TUSTEP importiert) so: #[A75B] codiert ist. In XML kann der Eintrag in einer Zeile so aussehen: In gelb vnd gwarem dich ganczer halbern Erste Ausgangsthese war, daß das Rotunda-r nur nach ›weichen, runden‹ Buchstaben wie b,g,p oder o stehen würde. Das obige Beispiel zeigt schon, dass dies nicht der Fall ist. Um dies anzeigen zu lassen, habe ich alle Tags bis auf r getilgt und mir dann das Suchmuster mittels zn,,,|?r| anzeigen lassen. So war schnell klar, daß die These für diesen Text nicht haltbar war. Weitere direkte Suchen nach vorangehendem e, sowie den zu erwartenden Buchstaben b, g, p und o haben gezeigt, daß diese Aussage auch signifikant in der Anzahl der Vorkommen ist. Jetzt hätte ich aber gerne eine entsprechende Liste ausgegeben, nach Möglichkeit auch mit der Anzahl der Vorkommen. Gerne auch als ganzen Eintrag (sprich: das zusammenhängende Wort). Soweit möglich auch ohne die vorhergehende Eliminierung aller anderen Tags. Meine Fragen, die sich durch dieses Problem ergeben haben: * Kann ich ein negiertes Muster im Editor in Suche und Austausche angeben? → »Lösche alles zwischen < und >, wenn dort nicht XXX steht?« * Kann ich eine Ausgabe von zn in eine Datei ausgeben lassen? → Wahrscheinlich ist dafür #KOPIERE eh besser geeignet. KWIC-Index habe ich mir mal angeschaut. Das sieht vielversprechend aus. Da ich mich hier aber in Bereichen des Handbuches bewege, die ich noch nie aufgeschlagen habe, werde ich erst noch etwas lesen müssen :-) Bisheriges Fazit: Das Ursprungsproblem ist relativ schnell gelöst worden, trotzdem hat es für mich einige Fragen aufgeworfen und mich nicht losgelassen diesen weiter nachzugehen. Die Frage wurde auf einem Hackathon mittels XML-Query, Python und eben TUSTEP in Angriff genommen und TUSTEP hat sich erstmal nicht schlecht geschlagen. Ich würde nun ganz gerne noch eine ›schöne‹ Lösung nachreichen um eine Lanze für TUSTEP zu brechen. Leider bin ich in #KOPIERE nicht so fit, um diese Lösung mal eben aus dem Hut zu zaubern (das hätte schon Eindruck gemacht ;-). In TUSCRIPT würde ich dies wohl hinbekommen, aber eben nicht mit ein paar Zeilen Code und in so kurzer Zeit. Vielen Dank für's Mitgrübeln Michael Hoffert From Gottfried.reeg at seegelken-reeg.de Fri Feb 28 18:57:08 2020 From: Gottfried.reeg at seegelken-reeg.de (Gottfried Reeg) Date: Fri, 28 Feb 2020 18:57:08 +0100 Subject: [Tustep-Liste] #*IMPORT Message-ID: Hallo, hat schon jemand eine rtf-Datei importiert, die arabischen Text enthielt? Bei mir war das Ergebnis leider nicht zufriedenstellend. Ein schönes Wochenende Gottfried Reeg From schaelkle at zdv.uni-tuebingen.de Fri Feb 28 19:27:13 2020 From: schaelkle at zdv.uni-tuebingen.de (=?utf-8?Q?Kuno_Sch=C3=A4lkle?=) Date: Fri, 28 Feb 2020 19:27:13 +0100 Subject: [Tustep-Liste] #*IMPORT In-Reply-To: References: Message-ID: <70F22209-DB26-4D06-8F39-ABAC7367E118@zdv.uni-tuebingen.de> Lieber Herr Reeg, > hat schon jemand eine rtf-Datei importiert, > die arabischen Text enthielt? das weiss ich nicht. > Bei mir war das Ergebnis leider nicht zufriedenstellend. Was heisst das? Was geht schief? Könnten Sie mir bitte die rtf-Datei schicken? Falls Sie noch die Original doc- bzw. docx-Datei haben, von der die rtf-Datei erstellt wurde, hätte ich diese lieber. Herzliche Grüße Ihr Kuno Schälkle From ulrich.rebstock at orient.uni-freiburg.de Fri Feb 28 20:22:27 2020 From: ulrich.rebstock at orient.uni-freiburg.de (Ulrich Rebstock) Date: Fri, 28 Feb 2020 20:22:27 +0100 Subject: [Tustep-Liste] #*IMPORT In-Reply-To: <70F22209-DB26-4D06-8F39-ABAC7367E118@zdv.uni-tuebingen.de> References: <70F22209-DB26-4D06-8F39-ABAC7367E118@zdv.uni-tuebingen.de> Message-ID: <1B90E154-DF39-40A1-9153-316AD9C6A337@orient.uni-freiburg.de> Ich helfe gerne dabei bzw. würde das gerne mit #*IMPORT lernen. Herr Reeg, könnten Sie mir Datei + Programm (abgespeckt, wenn möglich) schicken? Gruß, Rebstock. > Am 28.02.2020 um 19:27 schrieb Kuno Schälkle : > > Diskussionsforum Tustep-Liste > Weitere Informationen: www.itug.de > ------------------------------------------------------------ > > Lieber Herr Reeg, > >> hat schon jemand eine rtf-Datei importiert, >> die arabischen Text enthielt? > > das weiss ich nicht. > >> Bei mir war das Ergebnis leider nicht zufriedenstellend. > > Was heisst das? Was geht schief? > > Könnten Sie mir bitte die rtf-Datei schicken? > Falls Sie noch die Original doc- bzw. docx-Datei > haben, von der die rtf-Datei erstellt wurde, hätte > ich diese lieber. > > Herzliche Grüße > Ihr Kuno Schälkle > > ------------------------------------------------------------ > Tustep-Liste at itug.de > https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste Prof. Dr. Ulrich Rebstock, Freiburg [ulrich.rebstock at orient.uni-freiburg.de] -------------- nächster Teil -------------- Ein Dateianhang mit HTML-Daten wurde abgetrennt... URL: