Die "Wayback Machine" von Archive.org ist ein sehr interessantes Tool für Recherchen aller Art (Guckst Du hier). Hier werden Millionen Webseiten archiviert und das in verschiedenen Ständen. Wer also auf seiner Webseite irgendwann mal Mist veröffentlicht hat und meint, dass ein Löschen dieses Inhalts reicht, um die Schandtat auf immer und ewig verschwinden zu lassen, der täuscht sich. In der Wayback Machine findet man ziemlich sicher noch eine Kopie des Inhalts. 

Wer nicht in diesen Index aufgenommen werden möchte bzw. bereits dort vorhandene Seiten entfernen lassen möchte, kann dies ganz einfach durch eine robots.txt anlegen.

Texteditor öffnen und das hier eintragen:

User-agent: ia_archiver
Disallow: /

Als robots.txt speichern und in das Hauptverzeichnis der Webseite laden (wenn es schon eine robots.txt gibt diese entsprechend erweitern). Beim nächsten Besuch des Wayback Machine Robots wird dieses "Verbot" erfasst und der Index für deine Domain geleert.

Was man damit nicht verhindert, ist die Speicherung im Google Cache (wobei dieser immer nur den letzten Stand speichert und nicht mehrere Versionen) und das Datamining diverser amerikanischer Datensammler. Die kann man nur durch IP-Sperren in der Firewall daran hindern die Seite zu durchschnüffeln.

Bookmark speichern:

  • Seite bei Mr. Wong bookmarken
  • Seite bei YIGG bookmarken
  • Seite bei YAHOO bookmarken
  • Seite bei Google bookmarken
  • Seite bei Feedmelinks bookmarken

Kommentare zu "Blog-Archivierung auf Lebenszeit verhindern"

  1. Gravatar
    Babs
    schrieb am 05.02.2007 14:09:20
    Hey Sven, voll cool, ich habe irgendwie meine barbarella.de Seiten von damals bei zig PC-Umzügen verloren u. da habe ich zumindest einen Teil nochmal wiedergefunden :)Liebe Grüße Babs
    Antworten
     
  2. Gravatar
    JC
    schrieb am 05.02.2007 23:55:09
    Den Google-Cache (auch Archive.org und andere Bots, die sich brav an Standards halten) kann man mit "" im Head der HTML-Seite verbieten.
    Antworten
     
  3. Gravatar
    JC
    schrieb am 05.02.2007 23:56:54
    OK... rausgefiltert... Zwischen den Anführungszeichen stand "[meta name="robots" content="noarchive"]" - halt nicht mit eckigen Klammern ;)
    Antworten
     
  4. Gravatar
    schrieb am 06.02.2007 00:27:10
    [Kommentar ID #4710 wird hier zitiert] Oh klasse, den META TAG kannte ich noch gar nicht. Wird auch gleich noch eingebaut.
    Antworten
     

Schreibe einen Kommentar

Name *
E-Mail *
(wird nicht veröffentlicht)
Website
Anti-Spam *
Was ergibt vier plus neun? (als Zahl)
 
Kommentar *