16.3 Die Klasse URLConnection
Die Objekte der Klasse URLConnection sind für den Empfang der Inhalte der URL-Objekte verantwortlich. Die Klasse ist abstrakt, und die Unterklassen implementieren die Protokolle, mit denen die Verbindung zum Inhalt aufgebaut wird. Die Unterklassen bedienen sich dabei der Objekte der Klasse URLStreamHandler, mit denen der eigentliche Inhalt ausgelesen wird.
16.3.1 Methoden und Anwendung von URLConnection
Die Klasse URLConnection ist ein wenig HTTP-lastig, denn viele Methoden haben nur für URLs auf Web-Seiten eine Bedeutung. So stellt die Klasse Methoden bereit, um die HTTP-Header zu lesen. Das ist etwas untypisch für andere Protokolle, die vielleicht keine Header setzen. Da eine Datei, die vom Web-Server kommt, den Inhalt (engl. content) immer ankündigt, kann die Klasse URLConnection mit einem Content-Handler den Inhalt erkennen.
Beispiel Um zu erfahren, wann die Datei auf dem Server gelandet ist, kann getDate() beziehungsweise getLastModified() verwendet werden.
Listing 16.4 URLConnectionHeader.java
import java.util.*;
import java.net.*;
public class URLConnectionHeader
{
public static void main( String args[] ) throws Exception
{
URL url = new URL( ">http://java-tutor.com/index.html" );
URLConnection con = url.openConnection();
System.out.println( con );
long d = con.getDate();
System.out.println( "Date : " + new Date(d) );
d = con.getLastModified();
System.out.println( "Last Modified : " + new Date(d) );
System.out.println( "Content encoding: " + con.getContentEncoding() );
System.out.println( "Content length : " + con.getContentLength() );
}
}
Die Programmzeilen würden etwa folgende Ausgabe erzeugen:
sun.net.www.protocol.http.HttpURLConnection:http://java-tutor.com/index.html
Date : Sun Feb 10 11:31:46 CET 2002
Last Modified : Mon Feb 04 18:49:19 CET 2002
Content encoding: null
Content length : 47661
|
Hier klicken, um das Bild zu Vergrößern
Die Methoden und Attribute von URLConnection
Die meisten der Attribute werden durch getHeaderField() verarbeitet. getHeaderFieldInt() ist eine Hilfsfunktion und bedient sich getHeaderField() wie folgt: Integer.parseInt(getHeaderField(name)). Ebenso wandelt getHeaderFieldDate() mittels getHeaderField() den String zuerst in ein long um und konvertiert ihn anschließend in ein Date-Objekt. Sehen wir uns zwei weitere Methoden an:
public String getContentType() {
return getHeaderField("content-type");
}
public long getLastModified() {
return getHeaderFieldDate("last-modified", 0);
}
Wie nun getHeaderField() wirklich implementiert ist, können wir nicht sehen, da es sich dabei um Funktionen handelt, die von den Unterklassen überschrieben werden. Prinzipiell ist die URLConnection-Klasse zwar für alle Protokolle gleichwertig, doch an anderer Stelle wurde schon erwähnt, dass sie eher zu Gunsten von HTTP entscheidet. Deshalb muss ein Rückgabewert von getLastModified() von einer FTP-Verbindung mit Vorsicht genossen werden.
16.3.2 Protokoll- und Content-Handler
Falls ein passender Content-Handler eingetragen ist, bietet getContent() Zugriff auf den Inhalt eines URL-Objekts. Für Bilder ist ein Handler eingetragen, der als Rückgabewert ein URLImageSource liefert. Mit wenigen Zeilen können wir dann ein Bild in Form eines Image-Objekts erzeugen, das auf dem Server weilt:
public static Image fetchimage( String url )
throws MalformedURLException, IOException
{
URL u = new URL( url );
Toolkit tk = Toolkit.getDefaultToolkit();
return tk.createImage((ImageProducer)u.getContent());
}
Wenn wir konkret ein Bild über eine URL laden wollen, dann bietet sich sicherlich die einfachere Methode getImage(URL) an.
Die Vorgehensweise, mit getContent() an Daten zu gelangen, funktioniert für alle Objekte - natürlich muss ein passendes Protokoll installiert sein. Für Content-Handler gilt das Gleiche wie für Protokoll-Handler: Unterschiedliche Umgebungen implementieren unterschiedliche Handler. Für HTML-Dateien liefert getContent() ein Objekt vom Typ sun.net.www. MeteredStream zurück und für normale Textdateien ein sun.net.www.content. text.PlainTextInputStream-Objekt, also nur Datenströme. Für Texte und HTML-Seiten können wir dann mit Hilfe des InputStreams (MeteredStream und PlainTextInputStream sind Unterklassen) die Datei zeilenweise auslesen. Leider gibt es keine Methode in der Bibliothek, die sofort die Daten in einem String bereitstellt.
Mit einer kleinen Zeile können wir erfragen, welches Handler-Objekt eine URL-Klasse für den Datenstrom einsetzt:
Object o = u.getContent();
System.out.println( "Schnapp: Ich habe einen " + o.getClass().getName() );
getContent() erkennt nun am Content-Type oder an den ersten Bytes den Typ der Datei. Dann konvertiert ein Content-Handler die Bytes seines Datenstroms in ein Java-Objekt. Der Protokoll-Handler überwacht die Verbindung zum Server und stellt dann die Verbindung zu einem konkreten Content-Handler her, der die Konvertierung in ein Objekt übernimmt.
Stellen wir zusammenfassend noch einmal den Content- und Protokoll-Handler gegenüber:
|
E Content-Handler: Durch einen Content-Handler wird die Funktionalität der URL-Klasse erweitert. Es können Quellen verschiedener MIME-Typen durch die Methode getContent() als Objekte zurückgegeben werden. Leider beschreibt die Java-Spezifikation nicht, welche Content-Handler bereitgestellt werden müssen. Für GIFs und JPEGs gibt es Handler, die gleich ImageProducer anlegen. |
|
E Protokoll-Handler: Auch ein Protokoll-Handler erweitert die Möglichkeiten der URL-Klassen. Das Protokoll ist der erste Teil einer URL und gibt bei Übertragungen wie »http« die Kommunikationsmethode an. Auch hier gibt es keine verbindliche Verpflichtung, diese bei einer JVM auszuliefern. So unterstützt das JDK Protokolle wie »file«, »ftp«, »jar«, »mailto«, doch schon Netscape benutzt andere Implementierungen der Klasse URLConnection. Noch anders sieht es beim Microsoft Explorer aus. Also hilft nur das Selberprogrammieren.1 |
final class java.net.URLConnection
implements Serializable, Comparable
|
|
Object getContent() throws IOException, UnknownServiceException
Liefert den Inhalt, auf den die URL verweist. UnknownServiceException ist eine Unterklasse von IOException, es reicht also ein catch auf IOException aus. |
final class java.net.URL
implements Serializable, Comparable
|
|
final Object getContent() throws IOException
Liefert den Inhalt, auf den die URL verweist. Die Methode ist eine Abkürzung für openConnection().getContent(). Wegen der Umleitung auf das URLConnection-Objekt kann auch hier eine UnknownServiceException auftauchen. |
16.3.3 Im Detail: vom URL zu URLConnection
Im Konstruktor des URL-Objekts wird festgelegt, um welches Protokoll es sich handelt, etwa HTTP. Dann wird die statische Methode getURLStreamHandler(Protokoll) aufgerufen. Sie ist die eigentliche Arbeitsstelle und findet eine entsprechende Klasse, die das Protokoll behandelt. Das funktioniert so: An das Präfix sun.net.www.protocol. wird der Name des Handlers (zum Beispiel ftp, http) und anschließend ein .Handler angehängt. Nun wird über Class.forName(clsName) nachgesehen, ob die Klasse schon im System geladen wurde. Wenn nicht, dann versucht der Klassenlader über loadClass(clsName) an die Klasse zu kommen. Falls die Klasse geladen werden konnte, wird sie mit newInstance() initialisiert und als URLStreamHandler zurückgegeben. Der Konstruktor von URL merkt sich diesen Handler in einer internen Variablen handler. Die Methode würde null zurückliefern, falls sie mit dem Protokoll nichts anzufangen weiß - dies bekämen wir zu spüren, denn eine null heißt MalformedURLException().
openConnection() von URL macht nichts weiter, als vom jeweiligen Handler wiederum openConnection() aufzurufen. Die Handler wissen für ihr Protokoll, wie die Verbindung aufzubauen ist. Denn für Web-Seiten mit dem HTTP-Protokoll sieht dies anders aus als eine Dateiübertragung mit dem FTP-Protokoll.
public URLConnection openConnection() throws java.io.IOException
{
return handler.openConnection( this );
}
Der Handler übernimmt selbst das Öffnen. Zurückgegeben wird ein Objekt vom Typ URLConnection, und wir können damit auf die Referenz lesend (wir holen uns also Informationen beispielsweise von der Web-Seite) und schreibend (zum Beispiel für eine CGI-Abfrage) reagieren. Die Klasse URLConnection ist selbst abstrakt, und die Unterklassen implementieren ihr eigenes Protokoll.
Es muss betont werden, dass bei der Erzeugung eines URLConnection-Objekts noch keine Verbindung aufgebaut wird. Dies folgt mit den Methoden getOutputStream() oder getInputStream(). Der Handler von URLConnection ist vom Typ URLStreamHandler, eine abstrakte Superklasse, die von allen Stream-Protokoll-Handlern implementiert wird. Leider können wir diese Implementierung nicht im Quelltext sehen.
final class java.net.URLConnection
implements Serializable, Comparable
|
|
URLConnection openConnection() throws IOException
Liefert ein URLConnection-Objekt, das die Verbindung zum entfernten Objekt vertritt. openConnection() wird vom Protokoll-Handler immer dann aufgerufen, wenn eine neue Verbindung geöffnet wird. |
16.3.4 Autorisierte URL-Verbindungen mit Basic Authentication
URL-Verbindungen können durch die Basic Authentication geschützt sein. Anwender bemerken dies, wenn sich ein Eingabedialog öffnet, der die Eingabe eines Namens und eines Passworts erzwingt. Die Web-Seite http://www.rahul.net/joeuser/ demonstriert diesen Eingabedialog. Der Benutzername »joeuser« und das Passwort »a.b.C.D« zeigen eine Web-Seite nach der Identifizierung.
Wollen wir ein Programm in Java schreiben, welches ein URL-Objekt auf eine Seite mit einer Authentifizierung lenkt, so hätten wir ohne die Behandlung des Logins ein Problem. Wenn wir das mit einer URL-Verbindung machen wollen, dann müssen wir verstehen, wie eine Authentifizierung abläuft. Glücklicherweise muss ein Java-Programm dazu wenig machen. Der Server schickt eine Anforderung an den Benutzernamen und das Passwort zum Client, und dieser muss der Aufforderung nachgehen. Ist unser Java-Programm der Client, muss unser Programm den Benutzernamen und das Passwort zurückschicken. Dazu verwendet das HTTP-Protokoll eine einfache Kodierung im Base64-Format. Das ist eine sehr einfache Verschlüsselung. Sind die beiden Komponenten zu einer Kennung verbunden, wird diese zum Server zurückgeschickt, bei unserem Benutzer joeuser ist das die Kennung:
Basic am9ldXNlcjphLmIuQy5E
Es bleibt ein Java-Programm, welches die Authorization »einschaltet«. Dazu setzen wir auf einem aktuellen URLConnection-Objekt conn eine passende Eigenschaft:
conn.setDoInput( true );
conn.setRequestProperty( "Authorization", kennung );
conn.connect();
Die Kennung ist in dem Format, wie unser Beispiel gerade gezeigt hat. Das letzte Geheimnis bleibt die sonderbare Kodierung Base64. Eine Reihe von Implementierungen ist im Internet verfügbar. Sun bringt ebenfalls im (eigentlich privaten) Paket sun.misc eine Klasse BASE64Encoder mit. Die nachfolgende Klasse implementiert ein Beispiel:
Listing 16.5 BasicAuth.java
import java.net.*;
import java.io.*;
public class BasicAuth
{
public static InputStream openAuthorizedStream( URL url,
String name, String passwd ) throws IOException
{
URLConnection conn = url.openConnection();
conn.setDoInput( true );
conn.setRequestProperty( "Authorization",
userNamePasswordBase64(name,passwd) );
conn.connect();
return conn.getInputStream();
}
private static String userNamePasswordBase64( String username, String password )
{
String s = username + ":" + password;
String encs = new sun.misc.BASE64Encoder().encode(s.getBytes());
return "Basic " + encs;
}
public static void main( String args[] ) throws Exception
{
URL url = new URL( ">http://www.rahul.net/joeuser/" );
BufferedReader in = new BufferedReader( new InputStreamReader(
openAuthorizedStream( url, "joeuser", "a.b.C.D" )) );
System.out.println( in.readLine() );
System.out.println( in.readLine() );
}
}
Über die Implementierung der Sicherheit auf der Server-Seite verrät die Seite http://www. rahul.net/howto/basicauth.html etwas mehr.
16.3.5 Apache Jakarta HttpClient
Das Java-Netzwerkpaket und insbesondere die Klasse URLConnection beziehungsweise HttpConnection bieten Basisfunktionalität für den Zugriff auf Internet-Ressourcen. Allerdings fehlen komfortable Methoden, etwa für Cookies oder Multi-Part Form-Data POST, also Möglichkeiten zum Hochladen von Dateien. Die müsste jeder selbst implementieren, was Zeit und Nerven kostet. Für diese Aufgaben gibt es den Apache Jakarta HttpClient (http://jakarta.apache.org/commons/httpclient/), eine Bibliothek, die sich neben den beiden aufgezählten Punkten auch noch mit anderen Dingen des HTTP-Protokolls beschäftigt.
Beispiel Sende eine Datei datei an die gegebene url. Als Content-Type wird XML gesetzt.
File input = new File( dateiname );
PostMethod post = new PostMethod( url );
post.setRequestBody( new FileInputStream(input) );
if ( input.length() < Integer.MAX_VALUE )
post.setRequestContentLength((int)input.length());
else
post.setRequestContentLength(EntityEnclosingMethod.CONTENT_LENGTH_CHUNKED);
post.setRequestHeader( "Content-type", "text/xml; charset=ISO-8859-1" );
HttpClient httpclient = new HttpClient();
httpclient.executeMethod(post);
post.releaseConnection();
|
1 Wer sich mit der Implementierung von Protokoll-Handlern näher auseinandersetzen möchte, der findet unter>http://java.sun.com/people/brown/ eine Implementierung vom Finger-Protokoll-Handler.
|