13.2 Eigenschaften von XML-Dokumenten
13.2.1 Elemente und Attribute
Der Inhalt eines XML-Dokuments besteht aus strukturierten Elementen, die hierarchisch geschachtelt sind. Dazwischen befindet sich der Inhalt, der aus weiteren Elementen (daher hierarchisch) und reinem Text bestehen kann. Die Elemente können Attribute enthalten, die zusätzliche Informationen in einem Element ablegen.
Listing 13.1 party.xml
<?xml version="1.0" ?>
<party datum=»31.12.01«>
<gast name="Albert Angsthase">
<getraenk>Wein</getraenk>
<getraenk>Bier</getraenk>
<zustand ledig="true" nuechtern="false"/>
</gast>
</party>
Die Groß- und Kleinschreibung der Namen für Elemente und Attribute ist wichtig für die Unterscheidung. Ein Attribut besteht aus einem Attributnamen und einem Wert. Der Attributwert steht immer in einfachen oder doppelten Anführungszeichen und wird dem Attributnamen mit dem Gleichheitszeichen zugewiesen.
Verwendung von Tags
Für die Angabe der Elemente werden die Tags benutzt. Diese Tags werden gemäß der Reference Concrete Syntax durch spitze Klammern gekennzeichnet. Elemente existieren in zwei Varianten. Falls das Element einen Wert einschließt, besteht es aus einem Anfangs-Tag und einem End-Tag. Der Anfangs-Tag gibt den Namen des Tags vor und enthält die Attribute. Der End-Tag hat den gleichen Namen wie das Anfangs-Tag und wird durch einen Schrägstrich nach der ersten Klammer gekennzeichnet. Zwischen dem Anfangs- und dem End-Tag steht der Inhalt des Elements.
Beispiel Das Element <getraenk> mit dem Wert Wein
<getraenk>Wein</getraenk>
|
Ein Element, das keine Inhalte einschließt, besteht nur aus einem Tag mit einem Schrägstrich vor der schließenden spitzen Klammer. Diese Tags haben entweder Attribute als Inhalt oder das Auftreten des Tags ist Bestandteil des Inhalts.
Beispiel Das Element <zustand> mit dem Attribut ledig und nuechtern
<zustand ledig="true" nuechtern="false"/>
|
Bedeutung der Tags
Durch die freie Namensvergabe in XML-Dokumenten ist eine formatierte Darstellung eines Dokuments nicht möglich. Anders als bei HTML gibt es keine festgelegte Menge von Tags, die den Inhalt nach bestimmten Kriterien formatieren. Falls das XML-Dokument in einem Browser dargestellt werden soll, sind zusätzliche Beschreibungen in Form von Formatvorlagen (Stylesheets) für die Darstellung in HTML notwendig.
Wohlgeformt
Ein korrektes XML-Dokument muss einige Bedingungen erfüllen, dann ist es wohlgeformt. Wenn es nicht wohlgeformt ist, ist es auch kein XML-Dokument. Damit ein XML-Dokument wohlgeformt ist, muss jedes Element aus einem Anfangs- und einem End-Tag oder nur aus einem abgeschlossenen Tag bestehen. Hierarchische Elemente müssen in umgekehrter Reihenfolge ihrer Öffnung wieder geschlossen werden. Durch die Anordnung der öffnenden und schließenden Tags wird die Struktur des XML-Dokuments festgelegt. Jedes XML-Dokument muss ein Wurzelelement enthalten, das alle anderen Elemente einschließt.
Beispiel Das Wurzelelement heißt <party> und schließt das Element <gast> ein.
<party datum="31.12.01">
<gast name="Albert Angsthase"></gast>
</party>
|
Spezielle Zeichen in XML (Entitäten)
Wir müssen darauf achten, dass einige Zeichen in XML bestimmte Bedeutungen haben. Dazu gehören &, <, >, " und '. Sie werden im Text durch spezielle Abkürzungen, den Entitäten, abgebildet. Dies sind für die oben genannten Zeichen &, <, >, " und '. Diese Entitäten für die Sonderzeichen sind die Einzigen, die durch den Standard festgelegt sind.
Kommentare
XML-Dokumente können auch Kommentare enthalten. Diese werden beim Auswerten der Daten übergangen. Durch Kommentare wird die Qualität des XML-Dokuments für den Benutzer wesentlich verbessert. Kommentare können an jeder Stelle des Dokuments verwendet werden, nur nicht innerhalb der Tags. Kommentare haben die Form:
<!-- Text des Kommentars
-->
Der beste Kommentar eines XML-Dokuments ist die sinnvolle Gliederung des Dokuments und sprechende Namen für Tags und Attribute.
Kopfdefinition
Die Wohlgeformtheit muss mindestens erfüllt sein. Zusätzlich dürfen noch andere Elemente eingebaut werden. Dazu gehört etwa eine Kopfdefinition, die beispielsweise
<?xml version="1.0"?>
lauten kann. Diese Kopfdefinition lässt sich durch Attribute erweitern. In diesem Beispiel werden die verwendete XML-Version und die Zeichenkodierung angegeben:
<?xml version="1.0" version="1.0" encoding="iso-8859-1"?>
Wenn eine XML-Deklaration vorhanden ist, muss sie ganz am Anfang des Dokuments stehen. Dort lässt sich auch die benutzte Zeichenkodierung definieren, wenn sie nicht automatisch UTF-8 oder UTF-16 ist. Automatisch kann jedes beliebige Unicode-Zeichen unabhängig von der Kodierung über das Kürzel ꯍ (A, B, C, D stehen für Hexadezimalzeichen) dargestellt werden.
13.2.2 Beschreibungssprache für den Aufbau von XML-Dokumenten
Im Gegensatz zu HTML ist bei XML die Menge der Tags und deren Kombination nicht festgelegt. Für jede Anwendung können beliebige Tags definiert und verwendet werden. Um aber überprüfen zu können, ob eine XML-Datei für eine bestimmte Anwendung die richtige Form hat, wird eine formale Beschreibung dieser Struktur benötigt. Diese formale Struktur wird in einem bestimmten Format beschrieben. Dafür wird üblicherweise eine Document Type Definition (DTD) oder ein Schema verwendet. Mit ihrer Hilfe wird festgelegt, welche Tags zwingend vorgeschrieben sind, welchen Inhalt diese Tags haben, wie Tags miteinander verschachtelt sind und welche Attribute ein Element hat. Damit wird beschrieben, wann eine XML-Datei gültig ist. Mittlerweile gibt es eine große Anzahl von Beschreibungen in Form von DTD und Schema, die Formatierungen für die verschiedensten Daten bieten. Einige DTDs sind unter http://www.xml.org/xml/registry.jsp aufgeführt. Um einen Datenaustausch für eine bestimmte Anwendung zu gewährleisten, ist eine eindeutige Beschreibung unerlässlich. Es wäre problematisch, wenn die Unternehmen unter der Struktur einer Rechnung immer etwas Verschiedenes sehen würden.
Document Type Definition (DTD)
Für die folgende XML-Datei entwickeln wir eine DTD zur Beschreibung der Struktur:
Listing 13.2 party.xml
<?xml version="1.0" ?>
<party datum="31.12.01">
<gast name="Albert Angsthase">
<getraenk>Wein</getraenk>
<getraenk>Bier</getraenk>
<zustand ledig="true" nuechtern="false"/>
</gast>
<gast name="Martina Mutig">
<getraenk>Apfelsaft</getraenk>
<zustand ledig="true" nuechtern="true"/>
</gast>
<gast name="Zacharias Zottelig"></gast>
</party>
Für diese XML-Datei legen wir die Struktur fest und beschreiben sie in einer DTD. Dazu sammeln wir zuerst die Daten, die in dieser XML-Datei stehen.
Elementname
|
Attribute
|
Untergeordnete Elemente
|
Aufgabe
|
Party
|
datum
Datum der Party
|
gast
|
Wurzelelement mit dem Datum der Party als Attribut
|
gast
|
name
Name des Gasts
|
getraenk und zustand
|
Die Gäste der Party, Name des Gasts als Attribut
|
getraenk
|
|
|
Getränk des Gasts als Text
|
zustand
|
ledig und nuechtern
|
|
Familienstand und Zustand als Attribut
|
Elementbeschreibung
Die Beschreibung der Struktur eines Elements besteht aus dem Elementnamen und dem Typ. Sie kann auch aus einem oder mehreren untergeordneten Elementen in Klammern bestehen. Der Typ legt die Art der Daten in dem Element fest. Mögliche Typen sind etwa PCDATA (Parsed Character Data) für einfachen Text oder ANY für beliebige Daten.
Untergeordnete Elemente werden als Liste der Elementnamen angegeben. Die Namen sind durch ein Komma getrennt. Falls verschiedene Elemente oder Datentypen alternativ vorkommen können, werden diese ebenfalls in Klammern angegeben und mit dem ODER-Operator (|) verknüpft. Hinter jedem Element und hinter der Liste von Elementen wird durch einen Operator festgelegt, wie häufig das Element oder die Folgen von Elementen erscheinen müssen. Falls kein Operator angegeben ist, muss das Element oder die Elementliste genau einmal erscheinen. Folgende Operatoren stehen zur Verfügung:
?
|
Einmal oder gar nicht
|
+
|
Mindestens einmal
|
*
|
Keinmal, einmal oder beliebig oft
|
Beispiel Das Element <party>.
<!ELEMENT party (gast)*>
|
Das Element <party> hat als Inhalt beliebig viele Unterelemente vom Typ <gast>. Damit wird ausgedrückt, dass auf einer Party beliebig viele Gäste erscheinen können.
Attributbeschreibung
Die Beschreibung der Attribute sieht sehr ähnlich aus. Sie besteht aus dem Element, den Attributnamen, den Datentypen der Attribute und einem Modifizierer. In einem Attribut können als Werte keine Elemente angegeben werden, sondern nur Datentypen wie CDATA (Character Data). Der Modifizierer legt fest, ob ein Attribut zwingend vorgeschrieben ist oder nicht. Folgende Modifizierer stehen zur Verfügung:
#IMPLIED
|
Muss nicht vorkommen.
|
#REQUIRED
|
Muss auf jeden Fall vorkommen.
|
#FIXED [Wert]
|
Wert wird gesetzt und kann nicht verändert werden.
|
Beispiel Das Attribut datum für das Element <party>:
<!ATTLIST party datum CDATA #REQUIRED>
|
Der Wert des Attributs datum ist Text und muss angegeben sein (festgelegt durch den Modifizierer #REQUIRED).
Kümmern wir uns um die Beschreibung eines Gasts, der einen Namen und einen Zustand hat.
<!ELEMENT gast (getraenk*, zustand?)>
<!ATTLIST gast name CDATA #REQUIRED>
Das Element hat als Attribut name und die Unterelemente <getraenk> und <zustand>. Ein Gast kann kein Getränk, ein Getränk oder viele einnehmen. Die Attribute des Elements <zustand> müssen genau einmal oder gar nicht vorkommen.
Das Element <getraenk> hat keine Unterelemente, aber einen Text, der das Getränk beschreibt.
<!ELEMENT getraenk (#PCDATA)>
Das Element <zustand> hat keinen Text und keine Unterelemente, aber die Attribute ledig und nuechtern, die mit Text gefüllt sind. Die Attribute müssen nicht unbedingt angegeben werden (Modifizierer #IMPLIED).
<!ELEMENT zustand EMPTY>
<!ATTLIST zustand ledig CDATA #IMPLIED
nuechtern CDATA #IMPLIED>
Bezugnahme auf eine DTD
Falls die DTD in einer speziellen Datei steht, wird im Kopf der XML-Datei angegeben, wo die DTD für dieses XML-Dokument steht:
<!DOCTYPE party SYSTEM "dtd\partyfiles\party.dtd">
Hinter DOCTYPE wird das Wurzelelement der XML-Datei angegeben. Hinter SYSTEM steht die URI mit der Adresse der DTD-Datei. Die DTD selbst kann in einer eigenen Datei stehen oder Bestandteil der XML-Datei sein.
Die vollständige DTD zu dem Party-Beispiel sieht folgendermaßen aus:
Listing 13.3 party.dtd
<!ELEMENT party (gast)*>
<!ATTLIST party datum CDATA #REQUIRED>
<!ELEMENT gast (getraenk*, zustand?)>
<!ATTLIST gast name CDATA #REQUIRED>
<!ELEMENT getraenk (#PCDATA)>
<!ELEMENT zustand EMPTY>
<!ATTLIST zustand ledig CDATA #IMPLIED nuechtern CDATA #IMPLIED>
Durch diese DTD wird die Struktur aller XML-Dateien, die eine Party auf diese Art beschreiben möchten, festgelegt.
13.2.3 Schema - eine Alternative zu DTD
Ein anderes Verfahren, um die Struktur von XML-Dateien zu beschreiben, ist Schema. Es ermöglicht eine Strukturbeschreibung wie DTD in Form einer XML-Datei. Dadurch wird das Parsen der Schema-Datei vereinfacht, da die Strukturbeschreibung und die Daten vom gleichen Dateityp sind. Durch Schema können die Datentypen der Elemente und Attribute einer XML-Datei viel detaillierter beschrieben werden. Die üblichen Datentypen wie string, integer und double der gängigen Programmiersprachen sind bereits vorhanden. Weitere Datentypen wie date und duration existieren ebenfalls. Zusätzlich ist es möglich, eigene Datentypen zu definieren. Mit Schema kann zum Beispiel festgelegt werden, ob ein Element nur Ganzzahl-, Wahrheits- oder Fließkommawerte hat.
Die Vorteile sind eine genauere Beschreibung der Daten, die in einer XML-Datei dargestellt werden. Dadurch wird die Strukturbeschreibung aufwendiger als mit einer DTD. Wenn eine Struktur sehr detailliert beschrieben oder diese Struktur für sehr viele Dokumente verwendet werden soll, ist der Mehraufwand gerechtfertigt.
Moderne Parser unterstützen die Verwendung von Schema, allerdings ist es noch kein Bestandteil der Spezifikation von XML 1.0. Grundsätzlich kann mit Schema, genau wie mit einer DTD, die Gültigkeit einer XML-Datei überprüft werden.
Hier ist ein Beispiel für ein Schema, das die Struktur der Datei party.xml beschreibt:
<?xml version="1.0"?>
<xsd:schema xmlns:xsd=">http://www.w3.org/2001/XMLSchema">
<xsd:complexType name="partyType">
<xsd:sequence>
<xsd:element name="gast" type="gastType" />
</xsd:sequence>
<xsd:attribute name="datum" type="datumType" />
</xsd:complexType>
<xsd:complexType name="gastType">
<xsd:sequence>
<xsd:element name="getraenk" type="xsd:string" />
<xsd:element name="zustand" type="zustandType" />
</xsd:sequence>
</xsd:complexType>
<xsd:simpleType name="datumType">
<xsd:restriction base="xsd:string">
<xsd:pattern value="[0-3][0-9].[0-1][0-9].[0-9][0-9] " />
</xsd:restriction>
</xsd:simpleType>
<xsd:complexType name="zustandType">
<xsd:complexContent>
<xsd:restriction base="xsd:anyType">
<xsd:attribute name="nuechtern" type="xsd:boolean" />
<xsd:attribute name="ledig" type="xsd:boolean" />
</xsd:restriction>
</xsd:complexContent>
</xsd:complexType>
</xsd:schema>
In diesem Beispiel werden die Typen string (für die Beschreibung des Elements <getraenk>) und boolean (für die Beschreibung des Elements <ledig>) verwendet. Die Typen gastType und datumType sind selbst definierte Typen. Für das Datum wird ein sehr einfacher regulärer Ausdruck verwendet, der die Form eines Datums beschreibt. Ein Datum besteht aus drei Gruppen mit je zwei Ziffern, die durch Punkte getrennt sind. Die erste Ziffer der ersten Zifferngruppe muss aus dem Zahlenbereich 0 bis 3 stammen.
Bei den Typen datumType und zustandType wird auf vorhandene Typen zurückgegriffen, um diese einzuschränken. Beim datumType wird der Typ string auf eine Form von Datum eingeschränkt. Beim zustandType wird der Type anyType auf die beiden Attribute nuechtern und ledig eingeschränkt. Dadurch wird ein neuer Typ erzeugt, der keinen Text als Inhalt enthält, sondern nur die beiden Attribute nuechtern und ledig. Der Wert der beiden Attribute ist ein Wahrheitswert.
Simple und komplexe Typen
In Schema wird zwischen simplen und komplexen Typen unterschieden. Simple Typen sind alle Typen, die keine Unterelemente und keine Attribute, sondern nur textbasierten Inhalt haben.
Beispiel Das Element <getraenk> besteht nur aus einer Zeichenkette.
<xsd:element name="getraenk" type="xsd:string" />
|
Komplexe Typen können neben textbasiertem Inhalt auch noch Unterelemente und Attribute haben.
Beispiel Das Element <gast> hat den Typ gastType und die Unterelemente <getraenk> und <zustand>.
<xsd:element name="gast" type="gastType" />
<xsd:complexType name="gastType">
<xsd:sequence>
<xsd:element name="getraenk" type="xsd:string" />
<xsd:element name="zustand" type="zustandType" />
</xsd:sequence>
</xsd:complexType>
|
Simple und komplexe Typen können andere Typen einschränken. Komplexe Typen können zusätzlich noch andere Typen erweitern. Beim Erweitern ist es möglich, mehrere Typen miteinander zu kombinieren, um einen neuen Typ mit Eigenschaften verschiedener Typen zu erschaffen.
Das vorherige Beispiel kann nur einen kleinen Einblick in die Möglichkeiten von Schema geben. Eine umfangreiche Dokumentation ist unter der URL http://www.w3.org/XML/Schema vorhanden. Dort gibt es drei verschiedene Dokumentationen zu Schema:
|
Schema Part0 Primer: gut lesbares Tutorial mit vielen Beispielen |
|
Schema Part1 Structures: genaue Beschreibung der Struktur einer Schema-Datei |
|
Schema Part2: Datatypes: Beschreibung der Datentypen, die in Schema verwendet werden |
Der erste Teil bietet eine grundlegende Einführung mit vielen Beispielen. Die beiden anderen Teile dienen als Referenzen für spezielle Fragestellungen.
13.2.4 Namensraum (Namespace)
Das Konzept Namensraum ist besonders wichtig, wenn
|
XML-Daten nicht nur lokal mit einer Anwendung benutzt werden, |
|
Daten ausgetauscht oder |
|
XML-Dateien kombiniert werden. |
Eine Überschneidung der Namen der Tags, die in den einzelnen XML-Dateien verwendet werden, lässt sich nicht verhindern. Daher ist es möglich, einer XML-Datei einen Namensraum oder mehrere Namensräume zuzuordnen.
Der Namensraum ist eine Verknüpfung zwischen einem Präfix, das vor den Elementnamen steht, und einer URI. Ein Namensraum wird als Attribut an ein Element (typischerweise das Wurzelelement) gebunden und kann dann von allen Elementen verwendet werden. Das Attribut hat die Form:
xmlns:Präfix="URI"
Dem Element, das den Namensraum deklariert, wird ein Präfix vorangestellt. Es hat die Form:
<Präfix:lokaler Name xmlns:Präfix="URI">
Das Präfix ist ein frei wählbares Kürzel, das den Namensraum benennt. Dieses Kürzel wird dem Namen der Elemente, die zu diesem Namensraum gehören, vorangestellt. Der Name eines Elements des Namensraums Präfix hat die Form:
<Präfix:lokaler Name>...</Präfix:lokaler Name>
Angenommen, wir möchten für unsere Party das Namensraum-Präfix geburtstag verwenden. Die URI für diesen Namensraum ist http://www.geburtstag.de. Der Namensraum wird in dem Wurzelelement party deklariert. Das Präfix wird jedem Element zugeordnet.
<geburtstag:party xmlns:geburtstag=">http://www.geburtstag.de"
geburtstag:datum="31.12.01">
<geburtstag:gast geburtstag:name="Albert Angsthase">
</geburtstag:gast>
</ geburtstag:party>
Eine weitere wichtige Anwendung von Namensräumen ist es, Tags bestimmter Technologien zu kennzeichnen. Für die XML-Technologien, etwa für Schema, werden feste Namensräume vergeben.
Eine Anwendung, die XML-Dateien verarbeitet, kann anhand des Namensraums erkennen, welche Technologie verwendet wird. Dabei ist nicht das Präfix, sondern die URI für die Identifikation des Namensraums entscheidend. Für XML-Dateien, die eine Strukturbeschreibung in Form eines Schemas definieren, ist es üblich, das Präfix xsd zu verwenden. Es ist aber jedes andere Präfix möglich, wenn die URI auf die Adresse http://www.w3.org/2001/XMLSchema verweist. Diese Adresse muss nicht unbedingt existieren, und eine Anwendung kann auch nicht erwarten, dass sich hinter dieser Adresse eine konkrete HTML-Seite verbirgt. Die URI dient nur der Identifikation des Namensraums für eine XML-Datei.
13.2.5 XML-Applikationen
Eine XML-Applikation ist eine festgelegte Auswahl von XML-Elementen und einem Namensraum. XHTML ist eine XML-Applikation, bei der die XML-Elemente die HTML-Elemente zur Beschreibung von Web-Seiten sind. Durch die Beschränkung auf eine bestimmte Menge von Elementen ist es möglich, diese XML-Dateien für bestimmte Anwendungen zu nutzen. Der Namensraum legt fest, zu welcher Applikation die einzelnen XML-Elemente gehören. Dadurch können verschiedene XML-Applikationen miteinander kombiniert werden.
Die bekannteste XML-Applikation ist XHTML. Die Menge möglicher Tags wird durch mehrere DTDs beschrieben. Für XHTML 1.0 gibt es folgende DTDs:
|
XHTML1-strict.dtd: minimale Menge von HTML-Tags |
|
XHTML1-transitional.dtd: die gängigsten HTML-Tags |
|
XHTML1-frameset.dtd: HTML-Tags zur Beschreibung von Frames |
Der Standard-XHTML 1.1 geht noch einen Schritt weiter und bietet modulare DTDs an. Hier kann sehr genau differenziert werden, welche HTML-Tags für die eigene XML-Applikation gültig sind. Dadurch ist es sehr einfach möglich, XHTML-Elemente mit eigenen XML-Elementen zu kombinieren. Durch die Verwendung von Namensräumen können die XHTML- und die XML-Tags zur Datenbeschreibung unterschieden werden.
|