skip to content

Archiv

Putzen an grauen Tagen: Das Media-Verzeichnis

Weg mit dem Dreck!

Im Laufe eines Lebens kommt allerhand Gerümpel zusammen – das man vielleicht gerne mal loswerden möchte. Auch im media-Verzeichnis einer Website. Nur: Was kann ich wegwerfen? Und: Was brauche ich noch?

Kaum ein CMS stellt Mittel zur Verfügung, die ganzen Leichen aufzufinden und mal gründlich durchzuputzen: Alte PDFs, alte Bilder, sinnloses Zeug aus der Test- und Einricht-Phase.
Tatsächlich ist das auch nicht so einfach.

Get Left, Get Right, HTTrack

Spider-Programme, mit denen sich die eigene Website durchsuchen und downloaden lässt. Eigentlich wurden diese Programme gemacht, um Websites auch offline verfügbar zu machen: Alle Seiten, alle Bilder, alle Dateien werden auf die lokale Platte geladen und dabei so geändert, dass die Links wieder stimmen.

Praktischerweise entsteht dabei auch ein media-Verzeichnis, das nur die Dateien enthält, die auch verlinkt = benötigt sind, alle Leichen werden nicht mitgeladen. Vom alten Media-Verzeichnis macht man noch ein Backup und löscht es vom Server, das neue media-Verzeichnis lädt man hoch. Schwupp – geputzt ist.

Fallstricke

Alle diese Tools haben Bugs, dazu gibt es auch prinzipbedingte Probleme:

  • Links aus dem CSS oder aus Javascript werden ignoriert
    Das ist normalerweise weniger schlimm, weil es meist nur (Hintergrund-)Bilder aus dem Template betrifft, die ja gar nicht im Media-Verzeichnis sind. Aber natürlich können auch andere Links betroffen sein, etwa solche, die per AJAX dargestellt werden.
    Abhilfe: Scripte kurzfristig so ändern, dass alles in „normalem“ HTML generiert wird. Diese Möglichkeit sollte man - für Suchmaschinen - ohnehin parat haben.
  • Unerlaubte Zeichen
    Httracks lädt keine Dateien, die ein Leerzeichen im Dateinamen haben, auch GetLeft hat so seine Macken. Generell gilt: Je sauberer die Dateinamen, umso besser geht’s.
  • URLs, die Parameter (?p=5) enthalten, werden nicht richtig aufgelöst.
    Wo keine Seite, da auch keine Bilder; diese werden nicht herunter geladen und fehlen dann. Das betrifft zum Beispiel das News-Modul und die Foldergallery.
    Über die Parameter stolpert sogar Google, man kann diesen Download-Programmen keinen Vorwurf machen. Wie soll zb ein Bild lustig.jpg?t=543253 gespeichert werden? Der Parameter wird hier verwendet, um das Bild stets aktuell zu zeigen – eine Sekunde später heißt es schon anders. Es kann das gleiche Bild sein – muss aber nicht.
    Beim News-Modul können je nach Einstellung sehr viele Seiten betroffen sein, von denen dann Bilder fehlen.
    Abhilfe: Kurzfristig so ändern, dass es keine Folgeseiten (= Parameter) gibt, also Einträge pro Seite: unbegrenzt.
    Verzeichnisse für Foldergallery aus dem Original-Verzeichnis 1:1 zurückspielen, egal was gespidert wurde.
  • Seiten für bestimmte User
    Alle diese Programme sehen die Seite so, wie sie jeder sieht. Enthält eine Website Bereiche für angemeldete User, werden diese natürlich nicht geladen.

Fazit und Praxis

Die Sache ist nicht unaufwändig. Bei kleineren Websites, wo sich nicht dauernd viel ändert, lässt man die paar Bildchen einfach auf dem Server oder setzt gelegentlich auf Handarbeit.

Etwas anderes ist es, wenn die 5Gb Webspace schon knapp sind, wenn sich von 500 Mitarbeitern bereits 100 verabschiedet haben, wenn 2000 PDFs sinnlos herumliegen.

Ich nehme mir schon mal einen ganzen Tag Zeit, um eine Site aufzuräumen. Besonders der Zeitpunkt sollte gut gewählt sein: Wann hat sich das meiste geändert, ab wann sind Preislisten usw. obsolet? Und: An welchem Wochentag habe ich die wenigsten Besucher? Meist: Samstag. Also an einem Samstag beginnen, und für den Sonntag keine Ausflüge planen. ;-)

Generelle Anmerkung:

Jede Website ist anders gestrickt, und jeder Webdesigner hat seine Vorlieben. Probleme oder Lösungen können sich woanders auch völlig anders darstellen. Kommentare und Tipps sind willkommen.

Back

Kommentar

Name:

E-Mail (required, not public):

Webseite:

Kommentar :

Up
K