16.13 Arbeitsweise eines Web-Servers
In diesem Kapitel lernen wir die Grundlagen eines Web-Servers kennen. Dazu besprechen wir zunächst das Protokoll HTTP, auf dem das Web basiert. Detaillierte Informationen aus Server-Sicht werden im Servlet-Kapitel beschrieben. Hier betrachten wir nur die Client-Seite.
16.13.1 Das Hypertext Transfer Protocol (HTTP)
Das HTTP ist ein Protokoll für Hypermedia-Systeme und im RFC 2616 genau beschrieben. HTTP wird seit dem Aufkommen des World Wide Web - Näheres dazu unter http:// www.w3.org/ - intensiv genutzt. Das Web basiert auf der Seitenbeschreibungssprache HTML, die 1992 von Tim Berners-Lee entwickelt wurde. Die Entwicklung wurde am CERN vorgenommen, und seit den Prototypen ist die Entwicklung nicht nur im Bereich HTML fortgeschritten, sondern auch im Protokoll. Berners-Lee ist allerdings dadurch nicht reich geworden, da er ohne Patent- oder Copyright-Ansprüche nur ein Werkzeug zur Veröffentlichung wissenschaftlicher Berichte ermöglichen wollte.
HTTP definiert eine Kommunikation zwischen Client und Server. Typischerweise horcht der Server auf Port 80 (oder 8080) auf Anfragen des Clients. Das Protokoll benutzt eine TCP/IP-Socket-Verbindung und ist deutlich textbasiert. Alle HTTP-Anfragen haben ein allgemeines Format:
|
Eine Zeile am Anfang
Dies kann entweder eine Anfrage (also eine Nachricht vom Client) oder eine Antwort vom Server sein. |
|
Ein paar Kopf-Zeilen (engl. header)
Informationen über den Client oder Server, zum Beispiel über den Inhalt. Der Header endet immer mit einer Leerzeile. |
|
Einen Körper (engl. body)
Der Inhalt der Nachricht. Entweder Benutzerdaten vom Client oder die Antwort vom Server |
Dieses Protokoll ist also sehr einfach und auch unabhängig von Datentypen. Dies macht es ideal einsetzbar für verteilte Hypermedia-Informationssysteme.
16.13.2 Anfragen an den Server
Ist die Verbindung aufgebaut, wird eine Anfrage formuliert, auf welches Objekt (Dokument oder Programm) zugegriffen werden soll. Neben der Anfrage wird auch noch das Protokoll festgelegt, mit dem übertragen wird. HTTP 1.0 (und ebenso HTTP 1.1) definiert mehrere Hauptmethoden, wobei drei zu den wichtigsten gehören.
|
E GET
Dies ist eine Anfrage auf eine Information, die an einer bestimmten Stelle lokalisiert ist. Ein Client kann auch Daten zum Server schicken, indem er sie an die URL anhängt. |
|
E POST
Die POST-Methode erlaubt es dem Client, Daten über einen Datenstrom zum Server zu schicken. |
|
E HEAD
Funktioniert ähnlich wie GET, nur dass nicht das gesamte Dokument verschickt wird, sondern allein Informationen über das Objekt. So sendet diese Methode zum Beispiel innerhalb einer HTML-Seite die Informationen, die innerhalb von <HEAD>....</HEAD> stehen. |
Eine Beispielanfrage an einen Web-Server
Hier ein typisches Beispiel einer GET-Anfrage vom Client an den Standard-Web-Server:
GET /directory/index.html HTTP/1.1
Das erste Wort ist die Methode des Aufrufs (auch Anfrage, engl. request). Neben den drei oben aufgeführten Methoden GET, POST und HEAD gibt es noch weitere, meist finden diese aber nur bei speziellen Anwendungen Verwendung.
Methode
|
Aufgabe
|
GET
|
Liefert eine Datei.
|
HEAD
|
Liefert nur Dateiinformationen.
|
POST
|
Sendet Daten zum Server.
|
PUT
|
Sendet Dateien zum Server.
|
DELETE
|
Löscht eine Ressource.
|
Tabelle 16.3 Einige Anfragemethoden von HTTP
Der zweite Parameter bei der Anfrage an den Server ist der Dateipfad. Er ist als relative Pfadangabe zu sehen und er folgt hinter der Methode.
URL
|
Erzeugte Anfrage
|
www.trallala.com/
|
GET / HTTP/1.1
|
www.trallala.com/../index.html
|
GET /../index.html HTTP/1.1
|
www.trallala.com/classes/applet.html
|
GET /classes/applet.html HTTP/1.1
|
Die Anfrage endet nur bei einer Leerzeile (Zeile, die nur ein Carriage-Return (\r) und ein Linefeed (\n) enthält).
Beispiel Wir können das in einer Telnet-Sitzung einfach testen. Starten wir zunächst eine Telnet-Sitzung:
$ telnet java-tutor.com 80
Anschließend fordern wir mit GET /aufgaben/bond.txt HTTP/1.0 eine Datei an. Es folgt eine lange Ausgabe:
HTTP/1.1 200 OK
Date: Sun, 10 Feb 2002 18:20:01 GMT
Server: Apache/1.3.19 (Unix) FrontPage/4.0.4.3
Last-Modified: Mon, 12 Jun 2000 11:41:03 GMT
ETag: "1db3c8-28e-3944cc4f"
Accept-Ranges: bytes
Content-Length: 654
Connection: close
Content-Type: text/plain
From England's INDEPENDENT:
...
|
Hier klicken, um das Bild zu Vergrößern
Abbildung 16.1 Get-Anfrage über telnet an einen Web-Server
Wenn die GET-Anfrage falsch formuliert oder die Datei nicht vorhanden ist, folgt eine Fehlerausgabe (siehe Abbildung 16.2).
Hier klicken, um das Bild zu Vergrößern
Abbildung 16.2 Ungültige Datei
Nach der Zeile mit der Anfrage können optionale Zeilen gesendet werden. So stellt der Netscape Navigator 2.0 (also der Client) beispielsweise die folgende Anfrage an den Server:
GET / HTTP/1.0
Connection: Keep-Alive
User-Agent: Mozilla/2.0 (Win95; I)
Host: merlin
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*
Hier sehen wir, dass durch diese Plauderei leicht Statistiken vom Browsereinsatz gemacht werden können.
16.13.3 Die Antworten vom Server
Der Server antwortet ebenfalls mit einer Statuszeile, einem Header (mit Informationen über sich selbst) und dem Inhalt. Der Web-Browser muss sich also um eine Antwort vom Web-Server kümmern. Eine vom Microsoft Web-Server generierte Antwort kann etwa wie folgt aussehen:
HTTP/1.0 200 OK
Server: Microsoft-PWS/2.0
Date: Sat, 10 Feb 2002 19:03:45 GMT
Content-Type: text/html
Accept-Ranges: bytes
Last-Modified: Sat, 09 May 1998 09:52:22 GMT
Content-Length: 26
Hier kommt die HTML Seite
Die Antwort ist wieder durch eine Leerzeile getrennt. Der Header vom HTTP setzt sich aus drei Teilen zusammen, dem General-Header (dazu gehört etwa Date), dem Response-Header (dazu gehört Server) und dem Entity-Header (Content-Length und Content-Type). (Der Client kann zusätzlich noch einen Request-Header belegen.)
Jedes Feld im Header besteht aus einem Namen, gefolgt von einem Doppelpunkt. Dann folgt der Wert. Die Feldnamen sind unabhängig von der Groß- und Kleinschreibung.
Die erste Zeile wird Statuszeile genannt und beinhaltet die Version des Protokolls und den Statuscode. Der danach folgende Text ist optional und beschreibt in einer menschlichen Form den Statuscode.
Die Version
Die erste Version des Protokolls HTTP (HTTP/0.9) sah nur eine einfache Übertragung von Daten über das Internet vor. HTTP/1.0 war da schon eine Erweiterung, denn die Daten konnten als MIME-Nachrichten verschickt werden. Zudem waren Metadaten (wie die Länge der Botschaft) verfügbar. Da aber HTTP/1.0 Nachteile im Caching besitzt und für jede Datei eine neue Verbindung aufbaut, also keine persistenten Verbindungen unterstützt, wurde das HTTP/1.1 eingeführt.
Der Statuscode
Der Statuscode gibt Auskunft über das Ergebnis der Anfrage. Er besteht aus einer Zahl mit drei Ziffern. Der zusätzliche optionale Text ist nur für den Menschen.
Das erste Zeichen des Statuscodes definiert die Antwort-Klasse (ähnlich wie es der FTP-Server macht). Die nachfolgenden Ziffern sind keiner Kategorie zuzuordnen. Für das erste Zeichen gibt es fünf Klassen:
|
1xx: Informierend
Die Anfrage ist angekommen, und alles geht weiter. |
|
2xx: Erfolgreich
Die Aktion wurde erfolgreich empfangen, verstanden und akzeptiert. |
|
3xx: Rückfrage
Um die Anfrage auszuführen, sind noch weitere Angaben nötig. |
|
4xx: Fehler beim Client
Die Anfrage ist syntaktisch falsch oder kann nicht ausgeführt werden. |
|
5xx: Fehler beim Server
Der Server kann die wahrscheinlich korrekte Anfrage nicht ausführen. |
Gehen wir noch etwas genauer auf die Fehlertypen ein.
Statuscode
|
Optionaler Text
|
200
|
OK
|
201
|
Created
|
202
|
Accepted
|
204
|
No Content
|
300
|
Multiple Choices
|
301
|
Moved Permanently
|
302
|
Moved Temporarily
|
304
|
Not Modified
|
400
|
Bad Request
|
401
|
Unauthorized
|
403
|
Forbidden
|
404
|
Not Found
|
500
|
Internal Server Error
|
501
|
Not Implemented
|
502
|
Bad Gateway
|
503
|
Service Unavailable
|
Tabelle 16.4 Einige Statuscodes bei Antworten des HTTP-Servers
Am häufigsten handelt es sich bei den Rückgabewerten um
|
200 OK
Die Anfrage vom Client war korrekt, und die Antwort vom Server stellt die gewünschte Information bereit. |
|
404 Not Found
Das referenzierte Dokument kann nicht gefunden werden. |
|
500 Internal Server Error
Meistens durch schlechte CGI-Programme hervorgerufen. |
Der Text in der Tabelle kann vom Statuscode abweichen.
General Header Fields
Zu jeder übermittelten Nachricht (nicht Entity) gibt es abfragbare Felder. Diese gelten sowohl für den Client als auch für den Server. Zu diesen gehören: Cache-Control, Connection, Date, Pragma, Transfer-Encoding, Upgrade und Via. Zu den Header-Informationen gehört auch die Uhrzeit des abgesendeten Pakets. Das Datum kann in drei verschiedenen Formaten gesendet werden, wobei das erste zum Internet-Standard gehört und dementsprechend wünschenswert ist. Es hat gegenüber dem zweiten den Vorteil, dass es eine feste Läge besitzt und das Jahr mit vier Ziffern darstellt:
Sun, 06 Nov 1994 08:49:37 GMT ; RFC 822, update in RFC 1123
Sunday, 06-Nov-94 08:49:37 GMT ; RFC 850, obsolet seit RFC 1036
Sun Nov 6 08:49:37 1994 ; ANSI C asctime() Format
Ein HTTP/1.1-Client, der die Datumswerte ausliest, muss also drei Datumsformate akzeptieren.
Felder im Response-Header
Der Response-Header erlaubt dem Server, zusätzliche Informationen, die nicht in der Statuszeile kodiert sind, zu übermitteln. Die Felder geben Auskunft über den Server. Folgende Felder sind möglich: Age, Location, Proxy-Authenticate, Public, Retry-After, Server, Vary, Warning und WWW-Authenticate.
Entity Header Fields
Eine Entity ist eine Information, die aufgrund einer Anfrage gesendet wird. Die Entity besteht aus einer Metainformation (Entity-Header) und der Nachricht selbst (überliefert im Entity-Body). Die Metainformationen, die in einem der Entity-Header-Felder übermittelt werden, sind etwa Informationen über die Länge des Blocks oder über die letzte Änderung der Länge. Ist kein Entity-Body definiert, so liefern die Felder Informationen über die Ressourcen, ohne sie wirklich im Entity-Body zu senden: Allow, Content-Base, Content-Encoding, Content-Language, Content-Length, Content-Location, Content-MD5, Content-Range, Content-Type, ETag, Expires und Last-Modified.
Der Dateiinhalt und der Content-Type
HTTP nutzt die Internet Media-Types (verwandt mit MIME-Types) im Content-Type. Dieser Content-Type gibt den Datentyp des übermittelten Datenstroms an. Einige Beispiele mit Referenzen:
Type
|
Untertyp
|
Beschreibung
|
text
|
plain
|
ASCII-Text (RFC1521)
|
|
html
|
Hyper-Text Markup Language (RFC1866)
|
multipart
|
mixed
|
Mehrere Inhalte (RFC1521)
|
|
form-data
|
Formulardaten aus HTML (RFC1867)
|
application
|
octet-stream
|
Allgemeine Binärdaten (RFC1521)
|
|
postscript
|
Postscript von Adobe (RFC1521)
|
|
rtf
|
Rich Text Format
|
|
pdf
|
PDF von Adobe
|
|
vnd.ms-excel
|
Microsoft Excel
|
|
vnd.ms-powerpoint
|
Microsoft Powerpoint
|
Jede über HTTP/1.1 übermittelte Nachricht mit einem Entity-Body sollte einen Header mit Content-Type enthalten. Ist dieser Typ nicht gegeben, so versucht der Client anhand der Endung der URL oder durch Betrachtung des Datenstroms herauszufinden, um was für einen Typ es sich handelt. Bleibt dies jedoch unklar, wird ihm der Typ »application/octet-stream« zugewiesen. Content-Types werden gerne benutzt, um Daten zu komprimieren. Diese verlieren dadurch nicht ihre Identität. In diesem Fall ist das Feld Content-Encoding im Entity-Header gesetzt, und bei einem GNU Zip-Packverfahren1 (gzip) ist dann folgende Zeile im Datenstrom mit dabei:
Content-Encoding: gzip
Nach den Headern folgt als Antwort die Datei. Nachdem diese übertragen wurde, wird die Socket-Verbindung geschlossen. Da jedes Anfrage/Antwort-Paar in einer Socket-Verbindung mündet, ist dieses Verfahren nicht besonders schnell und schont auch nicht das Netzwerk, da viele Pakete verschickt werden müssen, die sich um den Aufbau der Leitung kümmern.
1 Eine Lempel-Ziv-Kodierung (LZ77) mit einem 32 -Bit-CRC. Beschrieben in RFC 1952.
|