TecT@lk: XML - die neue Lingua franca?

06. Nov. 2004

Im Mittelalter entwickelte sich aus dem Spätlateinischen, Elementen aus dem Italienischen und dem Arabischen eine Sprache, die als Lingua franca (Sprache der Franken) im gesamten Mittelmehrraum Geschichte machte. Es war vor allem eine Verkehrs- und Handelsprache. Über viele Grenzen hinweg war es möglich, effizient Handel miteinander zu treiben.

XMLHeute schickt sich eine andere Sprache an, den Austausch von Daten zu revolutionieren: XML. XML ist eine Abkürzung für eXtensible Markup Language = erweiterbare Auszeichnungssprache. Unter Auszeichnung versteht man die Kennzeichnung von bestimmten Datenelementen mit sogenannten Tags (engl. Tag = Anhänger). Es ist wie ein kleines Schild an einer Flasche, welches den Inhalt kennzeichnet. Tags werden in spitzen Klammern < > geschrieben. Für technische Details wird auf die umfangreichen Beschreibung im Web verwiesen (siehe Randspalte). Hier wollen wir uns auf die Bedeutung und Auswirkungen konzentrieren.

XML vs. HTML

HTML und XML kommen aus der gleichen Familie. Beide stammen von SGML (Standard Generalized Markup Language) ab. In SGML sind die generellen Mechanismen von Auszeichnungen (Markups) und Sprachstrukturen beschrieben. HTML ist eine Spezialisierung von SGML für die Darstellung von Webseiten. Zu Beginn des World Wide Web suchte man nach einer einfachen Beschreibung und Darstellungsmöglichkeit von Seiten auf Bildschirmen. In HTML finden Sie sowohl Elemente zur Strukturierung von Daten wie <HEAD>, <BODY>, <TABLE> als auch zum Layout: <B> für Fettschrift, <I> für Kursivschrift usw. Dies führt dazu, dass in HTML in der Regel nicht zu erkennen ist, welche Datenelemente was darstellen.

XML hat den großen Vorteil, dass die Elemente (Tags) selbst bestimmbar sind (daher Extensible = erweiterbar). Oben im Bild sehen sie einen Ausschnitt aus einem Wetterbericht in XML. Die Elemente <wetter> etc. sind selbst gewählt. XML schreibt nur ein paar Regeln zur Gestaltung und Struktur der Elemente vor, aber nicht die Elemente selbst.

Die Trennung von Daten und Layout

Stellen Sie sich eine Rechnung im Internet vor: alles sieht gleich aus: Rechnungsanschrift, Positionsnummer, Einzelpreis, Gesamtpreis, Umsatzsteuer, … Ein Computerprogramm wäre nicht ohne weiteres in der Lage, die Daten richtig zu filtern und z.B. einem Buchhaltungsprogramm zuzuführen. Wenn wir "50255 Köln" lesen, können wir aufgrund unserer Erfahrung direkt sagen, dass die Zahl die Postleitzahl und der Name dahinter die Ortsbezeichung ist. "20 Aktenordner" hat die gleiche Struktur, aber eine völlig andere Bedeutung. Ein Computer kann das nicht unterscheiden.

Völlig anders sieht die Sache aus, wenn die Daten z.B. so aussehen:

<Rechnung>
  <Anschrift>
    <Name>Firma Muster</Name>
    <PLZ>50255</PLZ>
    <Ort>Köln</PLZ>
    ...
  </Anschrift>
  ...
  <Position Nr="1">
    <Menge>20</Menge>
    <Artikel>Aktenordner</Artikel>
    <Einzelpreis>2,40</Einzelpreis>
    ..
  </Position>
</Rechnung>
		

Sie sehen ein Stück XML. Die Daten sind für den Menschen und die Maschine gleichmaßen gut lesbar. Dies sind die reinen Daten. Sie können jetzt auf verschiedene Arten dargestellt (Layout) oder maschinell verarbeitet werden. Ein Datenaustausch über Systemgrenzen wird möglich.

Stellen Sie sich vor, Sie bekommen in Zukunft alle Rechnungsdaten in dieser Form. Dann brauchen diese Daten nicht mehr in ein Buchhaltungsprogramm eingetippt zu, sondern können automatisch verarbeitet werden. Eine gewaltige Zeitersparnis. Und Tippfehler werden auch vermieden.

Web-Services

XML wird es ermöglichen, dass sich Webserver miteinander unterhalten: Ich rufe von meiner Webseite einen Wettterservice auf. Das einzige Datum, welches ist übermitteln muss, ist die Postleitzahl. Ich bekomme dann in strukturierter XML-Form die aktuellen Wetterdaten für diesen Ort zurück. Ich kann dann die Daten in beliebiger From weiterverwenden.

Damit nicht jeder Wetterdienst die Wetterdaten anders struktiert, werden Vereinbarungen über die Struktur erfolgen. Diese sogenannten Schemata wird es in absehbarer Zeit für alle möglichen Daten geben: Währungsumrechnungen, Wetterdaten, Beschreibung von Immobilien, Bestellungen und Rechnungen, Flug- und Zugpläne, Autoleasing, Steuererklärungen, Lieferscheine, …. Dies ist die Basis für einen universellen Datenaustausch.

Semantisches Web

Wenn Sie heute bei Google das Wort "Golf" eingeben, dann liefert Ihnen die Suchmaschine ca. 136 Millionen Suchergebnisse! Dabei ist die Sportart, das Automodell von Volkswagen und die große Meeresbuch wie der Golf von Mexico. Eine Suchmaschine sucht nur nach dem Wort und fragt nicht nach der Bedeutung.

Das Web der Zukunft wird ein semantisches Web sein (Semantik = Lehre von der Bedeutung). Das könnte dann so gehen: Die suchen nach "Golf" und die Suchmaschine liefert Ihnen dann dieses:

Damit dies möglich wird, brauchen die Informationen im Netz die semantischen Zusatzinformationen. Diese werden in Form von XML erstellt werden. Es wird einer gewaltigen Anstrengung bedürfen, um das Wissen der Menschheit auf diese Art und Weise aufzubereiten. Aber es wird uns reichen Segen bringen.

 

TecT@lk

Website in Flash?

Warum Sie keine komplette Website in Flash-Technologie realisieren sollten.

Sonstige Services

Kunden-Center

Geschützer Zugang für unsere Kunden.

LesensWert

Bücher, die uns faszinieren.