Dnia niedziela, 17 grudnia 2006 18:14, Kazimierz Pogoda napisał:

> Jestem zaskoczony faktem, że projekt wzbudza tak ożywioną i merytoryczną
> dyskusję. :)

Już dawno zauważyłem, że najlepiej gada mi się z humanistami od teorii 
informacji (filozofami, teoretykami języka, etc). 

> Ja się z kolei obawiam innej rzeczy. Do reprezentacji XML w paradygmacie
> obiektowym używa się modelu DOM, czyli struktury drzewa. Niestety taka
> hierarchiczna struktura nie nadaje się do pełnego oznaczania tekstów
> zapisanych "językiem naturalnym" (np. zazębiające się metafory w
> poezji). Oto fragment z mojej pracy magisterskiej:

Czyli problemem jest nałożenie niehierarchicznego rozciągłego marka na ściśle 
hierarchiczny dokument.

Tak myślę:

1. Po HTMLowemu:

<metafora ekstensja="moment">mgnienie</metafora>
<metafora ekstensja="moment|enklawa spokoju w centrum chaosu">oka</metafora>
<metafora ekstensja="enklawa spokoju w centrum chaosu">cyklonu</metafora>

Nadmiarowe i wymaga postprocessingu do łączenia sąsiednich części tego samego 
marka.

2. Tagi niestrukturalne (czy jak to tam nazwać)

<metafora ekstensja="moment" id="1" />mgnienie
<metafora ekstensja="enklawa spokoju w centrum chaosu" id="2" />oka<eometafora 
id="1" />cyklonu<eometafora id="2" />

Nie najszczęśliwsze do DOMa, ale idealne dla SAXa.

3. Tagi z długością (nie wiem, w znakach, słowach? Powiedzmy w słowach)

<metafora ekstensja="moment" span="2" />mgnienie
<metafora ekstensja="enklawa spokoju w centrum chaosu" span="2" />oka cyklonu

Nie najszczęśliwsze do DOMa, ale znowu idealne dla SAXa. Mniej nadmiarowe niż 
#2, ale czułe na modyfikację tekstu.

4. XML to tylko strukturyzacja tekstu z drugiego pliku

tekst.txt:
mgnienie oka cyklonu

mapa.xml:
<metafora ekstensja="moment" from="1" span="2"/><metafora ekstensja="enklawa 
spokoju w centrum chaosu" from="2" span="2"/>

Wymaga osobnego pliku, ale umożliwia dowolne hocki-klocki z opisywaniem 
strukturalnym (czy też niestrukturalnym) dowolnego fragmentu tekstu, łącznie 
z pokryciem już opisanych. _Bardzo_ czułe na modyfikacje tekstu - ale zawsze 
można jako bazę wybrać #2 i pojechać SAXem do #4.

Takie tam (pół)nocne rozmyślania nad kieliszkiem dwójniaka...

-- 
 Pawel Kraszewski

Odpowiedź listem elektroniczym