Web-Workshop: Meta-Tags

Inhalt

Syntax
Auto-Reload
Ablaufdatum
Seiteninfos
Suchmaschinen

Der Meta-Tag ist schon seit der Version 1 in den HTML-Standard integriert. Dennoch ist er den wenigsten Webmastern auch bekannt, und noch weniger nutzen ihn. Leider.

Der Meta-Tag fristet ein kümmerliches Dasein. Er ist wohl einer der meistverkannten HTML-Tags überhaupt. Dabei handelt es sich bei ihm keineswegs um einen 08/15-Tag, sondern um ein mächtiges Werkzeug, mit dem beispielsweise die Hit-Rate erhöht werden kann.

Prinzipiell dient der Meta-Tag dazu, Informationen über das Dokument in der HTML-Seite einzubetten (Metadaten ist die Bezeichnung für Daten über Daten), die von anderen HTML-Elementen wie <TITLE> nicht abgedeckt sind. Darüber hinaus ermöglicht er es auch, das Laden einer Seite in einem gewissen Masse zu kontrollieren und zu beeinflussen. Häufig wird der Meta-Tag auch von WYSIWYG-HTML-Editoren gebraucht, um im Sourcecode Infos über die Applikation, die sie produziert hat, sowie Copyrights abzulegen. Seinen grössten Nutzen bringt der Meta-Tag aber im Zusammenhang mit Suchmaschinen, indem er eine Seitenbeschreibung und Schlüsselwörter beinhaltet, die dann indexiert werden können.

Inhalt Syntax

Der Meta-Tag muss immer im Head-Abschnitt des Source-Codes untergebracht werden. Im Body des Dokuments hat er keine Wirkung. Der Inhalt der Meta-Tags wird auch nicht angezeigt, wenn eine Seite normal im Browser betrachtet wird. Dagegen erscheint er unter Umständen im Info-Fenster, das Sie zum Beispiel in den Netscape-Browsern über View – Page Info anschauen können. Jedenfalls aber sind Meta-Informationen über View – Page Source einsehbar.

Grundsätzlich kennt <META> zwei Hauptattribute, nämlich HTTP-EQUIV und NAME. Ersteres wird benutzt, um einer Position im HTTP-Header neue Werte zuzuordnen. Oft auf diese Weise ersetzte Einträge sind beispielsweise "Expires", "Refresh" oder "Reply-to". Wir werden auf diese Einträge noch zurückkommen.

Das andere Attribut, NAME, braucht man, um benutzerdefinierte Meta-Informationen zu erstellen, die von einem speziell dafür angefertigten Programm (zum Beispiel dem sogenannten Robot einer Suchmaschine) gelesen werden können.

Meta-Tags kommen ausschliesslich paarweise vor, bestehen also immer aus einem Namen bzw. HTTP-Equivalent und dem zugehörigen Wert – ist nur einer der beiden Teile angegeben, entfaltet der Tag keine Wirkung oder generiert sogar eine Fehlermeldung. Der Wert wird durch das Attribut CONTENT definiert und kann meist einen beliebigen Inhalt haben. Nur ausnahmsweise verlangt ein Hauptattribut einen ganz bestimmten Wert, um zu funktionieren.

Der Meta-Tag sieht im Source-Code also immer wie in folgendem Schema aus:

Sie können übrigens beliebige Attribute für HTTP-EQUIV und NAME verwenden, also auch eigene erfinden. Dabei ist aber Vorsicht geboten: HTTP-EQUIV bezieht sich auf einen Eintrag im HTTP-Header, wie er vom Server dem Dokument angefügt und verschickt wird. Auf diese Weise können Sie Ihrem Server eigene, proprietäre Funktionsweisen beibringen. Wenn Sie aber keine profunden Kenntnisse von HTTP und Ihrer Serversoftware besitzen, sollten Sie darauf verzichten, hier irgendwelche Innovationen zu kreieren. Benutzen Sie stattdessen das NAME-Attribut. Damit werden Sie kaum Schaden anrichten.

Gesamthaft muss noch darauf hingewiesen werden, dass Meta-Tags nicht für Informationen gebraucht werden sollten, die auch auf andere Weise, etwa mit eigenen HTML-Tags, definiert werden können. So sollten Sie beispielsweise darauf verzichten, einen Meta-Tag nach dem Schema <META NAME="title"...> zu erfinden – dafür gibt es in HTML den <TITLE>-Tag.

Inhalt Auto-Reload

Mit dem bereits erwähnten Unterattribut "Refresh", das von Netscape als proprietärer Tag mit der Navigator-Version 3.0 eingeführt wurde, können Sie eine Seite nach einer bestimmten Zeit erneut laden oder eine ganz andere Seite aufrufen. Im Code sieht das so aus:

In diesem Beispiel ist Wert durch die Anzahl Sekunden zu ersetzen, die der Browser abwartet, bis er zur neuen Seite springt. Die URL ist optional – sie kann eine andere Seite enthalten, auf die Ursprungsseite weisen oder aber ganz fehlen. In letzterem Fall wird die aktuelle Seite erneut geladen.

Mit dieser Tag-Kombination werden beispielsweise die beliebten Eröffnungsseiten angereichert, die nach einer kurzen Zeit auf die eigentliche Homepage verzweigen. Es lassen sich aber auch ganze Diashows auf diese Weise erstellen. Eine andere Anwendungsmöglichkeit ist, von einer alten, nicht mehr aktuellen Seite, auf die aber viele externe Links führen, automatisch die neue Homepage aufrufen zu lassen.

Inhalt Ablaufdatum

Mit einem Meta-Tag kann der Browser gezwungen werden, eine Seite direkt vom Server anstelle des Cache-Ordners zu laden. Das ist zum Beispiel sinnvoll, wenn eine Seite häufig aufdatiert wird, wie das bei Nachrichten-Seiten oft der Fall ist. Dem User ist in solchen Fällen daran gelegen, dass er immer die aktuellste Version auf den Bildschirm bekommt, ohne unter Umständen mehrmals reloaden zu müssen.

Um dieses Ziel zu erreichen, muss dem Dokument ein Verfalldatum gegeben werden, an dem der Browser erkennt, dass die Gültigkeit des Inhalts abgelaufen ist und die Seite wieder vom Server abgerufen werden muss.

Die im Beispiel angegebene Seite wird also am 26. August 1997 um 04.15 morgens unserer lokalen Sommerzeit ablaufen und muss danach zwingend wieder vom Server geladen werden.

Soll eine Seite bei jedem neuen Ladevorgang ein anderes Verfalldatum erhalten, muss dies serverseitig mit einem Script programmiert werden.

Es gibt dazu allerdings auch eine interessante und einfache Variante. Wenn die Seite nämlich gar nicht in den Cache geschrieben wird, kann sie auch nicht von dort gelesen und muss somit immer vom Server geladen werden. Hier der entsprechende Code:

Das Attribut pragma, das in diesem Beispiel verwendet wird, kontrolliert im HTTP-Standard 1.0 das Cacheing von Dokumenten. Es funktioniert nur mit dem Wert no-cache.

Inhalt Seiteninfos

Sie können Ihren Seiten mit Meta-Tags fast beliebige Informationen anfügen. Dabei müssen Sie sich aber bewusst sein, dass die wenigsten Browser damit etwas anfangen und auch nur einige Suchmaschinen diese Anmerkungen indexieren. Es ist aber durchaus möglich, dass dieses Verfahren in naher Zukunft breiter unterstützt werden wird. Ausserdem können Meta-Tags keinen Schaden anfügen, so dass eigentlich nichts wirklich dagegen spricht, diese Informationsmöglichkeit zu nutzen.

Häufig wird diese Variante von Meta-Tags von HTML-Editoren benutzt, um wenigstens im Sourcecode anzuzeigen, wer die Seite generiert hat. Aber auch HTML-Autoren aus Fleisch und Blut nutzen diese Möglichkeit ab und zu, um Name, Copyrighthinweise und dergleichen in die Seite einzubetten. Ein Beispiel:

Der Meta-Tag kann auch dazu gebraucht werden, den Inhaltstyp des Dokuments zusammen mit dem benutzten Zeichensatz zu spezifizieren. Damit wird der Browser dazu gebracht, den entsprechenden Zeichensatz zu laden, bevor er die Seite anzeigt. Sinnvoll ist dies beispielsweise bei Zeichensätzen mit vielen Sonderzeichen, wie sie in der deutschen, französischen oder nordischen Sprachen vorkommen. Wenn Sie Seiten in griechischer, arabischen oder fernöstlichen Sprachen anfertigen, ist das die einzige Möglichkeit, den Browser zur richtigen Anzeige der Zeichen zu bringen – ob der Anwender damit etwas anfangen kann, steht allerdings auf einem anderen Blatt.

Dabei muss aber beachtet werden, dass die meisten Browser nur eine Auswahl von internationalen Zeichensätzen unterstützt.

Eine weitere sinnvolle Einsatzmöglichkeit für Meta-Tags ist die Klassifizierung des Seiteninhalts. Das passiert mit dem Attribut rating, das die Werte general (für jedermann), mature (für reife Persönlichkeiten), restricted (nur für ein eingeschränktes Publikum) oder 14 years (ab 14 Jahren) haben kann.

Leider werden diese Angaben bisher kaum von einer Browser- oder Serversoftware unterstützt, und die verschiedenen Anbieter für Babysitter-Software benutzen je eigene Ansätze.

Inhalt Suchmaschinen

Eine der wichtigsten Funktionen der Meta-Tags ist es, für die automatischen Suchmaschinen Schlüsselwörter und Seitenbeschreibungen bereitzuhalten, die diese dann indexieren können. Damit hat es ein Web-Site-Betreiber eigentlich in der Hand, in den Suchmaschinen mit den wirklich wichtigen Inhalten seiner Site vertreten zu sein und es nicht der Maschine zu überlassen, zufällig aus dem Zusammenhang gerissene Wörter zu speichern.

Normalerweise funktioniert das folgendermassen: Suchmaschinen wie AltaVista haben ein automatisches Index-System. Wenn Sie Ihre Seite da anmelden, geben Sie die URL ein, worauf ein sogenannter "Spider" oder "Robot" Ihre Seite besucht und meist einfach die ersten paar Zeilen des Dokuments indexiert. Das führt zu ziemlich kuriosen Ergebnissen bei der späteren Recherche. Sind dagegen im Header des Dokuments einige Meta-Tags sauber integriert, wird der Robot diese indexieren. Damit haben Sie die Kontrolle darüber, in welchen Kategorien und unter welchen Suchbegriffen Ihre Seite bei einer Recherche erscheint. Ausserdem haben Sie über das Description-Attribut auch die Möglichkeit, genau zu bestimmen, was als Kurzbeschreibung in der Antwort der Suchmaschine auftaucht.

Leider haben bisher erst die wenigsten Webmaster gemerkt, welch grossartige Chance sie hier haben, um ihre Seite bekannt zu machen und mit einer hohen Hit-Rate zu versehen. Seiten, die per Meta-Tag über ihren Inhalt orientieren, sind global gesehen noch immer die grosse Ausnahme.

Allerdings sind daran nicht nur die Webmaster schuld. Bisher wurde für diese Art der Indexierung nämlich kein Standard definiert, so dass jeder Suchmaschinen-Betreiber einen anderen Weg eingeschlagen hat. Längst nicht alle Suchmaschinen unterstützen diese Indexierung, und diejenigen, die es tun, tun es auf höchst unterschiedliche Weise. Als Webmaster ist man daher gezwungen, von jeder interessanten Engine die entsprechenden Informationen anzufordern und für jede Variante eigene Meta-Tags in den Sourcecode zu implementieren.

Es muss auch davor gewarnt werden, sich aufgrund der Implementation von Meta-Tags allzu grosse Hoffnungen zu machen: Meta-Tags sind nur ein Teil der Information, die einige Suchmaschinen für ihre Datenbanken sammeln. Andere wesentliche Bestandteile der Datenbanken sind der Titel und der Text-Inhalt der Seite, der manchmal sogar mit dem Inhalt der Meta-Tags verglichen wird. Neuerdings werden für die Relevanz eines Suchergebnisses sogar die Häufigkeit gewertet, mit der eine URL in der Suchmaschine aufgerufen wird oder wieviele Links auf anderen Seiten auf eine bestimmte Site weisen. Die Meta-Tags sind damit "nur" ein unterstützendes Mittel.

Die für die Indexierung durch Suchmaschinen gebräuchlichsten Attribute des Meta-Tags sind AUTHOR, DESCRIPTION und KEYWORDS. Das sieht dann etwa so aus:

Einige Maschinen nutzen für Ihren Index alle drei Angaben, andere nur die Beschreibung und die Schlüsselworte. Letzere müssen Sie durch Leerzeichen trennen, damit die Maschine die einzelnen Wörter erkennt. Allerdings werden meist auch Kommas als Leerzeichen interpretiert.

Weil einige Suchmaschinen nur eine beschränkte Anzahl von Zeichen akzeptieren, sollten Sie sich bei der Beschreibung auf etwa 150 und bei den Schlüsselwörtern auf höchstens 750 Zeichen beschränken.

Mit dem robot-Tag lassen sich denjenigen Suchmaschinen, die ihn unterstützen (z.B. AltaVista, HotBot, Infoseek), sogar noch Anweisungen geben, was sie auf der Seite genau tun sollen. Damit lässt sich definieren, ob eine Site komplett indexiert wird oder ob bestimmte Seiten ausgenommen werden sollen. Man kann auch bestimmen, ob den Links in die Tiefe der Site gefolgt werden soll.

In diesem Beispiel werden die Robots angewiesen, die Seite zu indexieren, aber den Links nicht zu folgen. Das robots-Attribut akzeptiert nur die folgenden sechs Werte: all, none, index ,noindex, follow, nofollow. Follow, index und ihre Gegenstücke erklären sich selber. All und none fassen die anderen Möglichkeiten zusammen: All = index, follow, none = noindex, nofollow. Diese Werte können Sie nach Belieben kombinieren, so dass Sie beispielsweise Ihre Homepage, auf der zwar Links zu den einzelnen Seiten, aber sonst keine Inhalte sind, nicht indexieren lassen, den Robot aber anweisen, den Links zu folgen:

Es macht natürlich keinen Sinn, die Werte widersprüchlich anzuwenden.

Beachten Sie, dass Sie die Robots nicht speziell anweisen können, wie tief sie den Links auf Ihrer Seite folgen sollen. Je nachdem, wie sie programmiert sind, tun sie das bis zu einer bestimmten Suchtiefe (z.B. folgt AltaVista bis zu drei Links tief) automatisch.

Normalerweise ziehen die Robots nach einer gewissen Zeitspanne, die zwischen einer Woche und über einem Monat liegt, wieder los, um ihre Angaben zu überprüfen und ihre Datenbank damit aktuell zu halten. Bei Seiten, die häufig geändert und aufdatiert werden, ist diese Zeitspanne oft zu lang. Mit einem Meta-Tag können Sie sie abkürzen:

Findet ein Robot diesen Tag in Ihrem Source-Code, merkt er sich die angegebene Anzahl Tage und besucht Ihre Site nach deren Ablauf erneut. Damit können Sie sicherstellen, dass die Anwender, die Ihre Site in einer Suchmaschine finden, immer die neuesten Inhaltsangaben erhalten. Leider wird auch dieses Attribut längst nicht von allen Suchmaschinen unterstützt. (mva)

Inhalt

Einige Meta-Varianten auf einen Blick

Attribut	Typ	Bedeutung
abstract	NAME	Synonym von Description
author	NAME	Name des Autors
content-language	HTTP-EQUIV	Sprache des Inhalts
content-type	HTTP-EQUIV	Typ und Zeichensatz des Inhalts
copyright	NAME	Copyrightangaben
description	NAME	Zusammenfassung der Seite
expires	HTTP-EQUIV	Verfalldatum einer Seite
keywords	NAME	Schlüsselwörter der Seite
pragma	HTTP-EQUIV	Verhindert das Cachen einer Seite
publication_date	HTTP-EQUIV	Datum der ersten Publikation
rating	NAME	Angaben zum Jugendschutz
refresh	HTTP-EQUIV	Laden derselben oder einer neuen Seite
reply-to	HTTP-EQUIV	Adresse für System-Mails
revisit-after	NAME	Anweisung für neuen Besuch des Robot
robots	NAME	Auflistung der Robots, die Ihre Seite indexieren sollen

Inhalt

Tips - Übersicht