skip to content

Archiv

PDFs, das Web und Websitebaker

PDFs sind gleichwohl ein wesentlicher Bestandteil des Webs wie auch ein Fremdkörper darin. Ein paar Anmerkungen zum Umgang mit PDFs und ein Ausblick auf ein kommendes Modul: PDFs in der normalen Seitensuche – mit Volltext und Thumbnail/Vorschau.

Das hätte Adobe gerne: Ganze Websites auf PDF-Basis. Immerhin: In einem PDF kann man Links setzen, beliebige Schriften verwenden, 3D-Objekte und Formulare einbinden. Das hat sich zum Glück nicht durchgesetzt, trotzdem sind PDFs ein fester Bestandteil des Webs: Broschüren, Folder, lange Texte (eBooks) können als PDF weit besser dargestellt werden. Wenn es da nicht einen Haken gäbe: Sie sind im Gefüge einer Website immer ein Fremdkörper.

Wie auf PDFs verlinken?

Immer noch eine Glaubensfrage. Die zweifellos einfachste, effektivste und sicherste Methode: Ganz normal verlinken, mit target="_blank". _blank (neues Fenster) deswegen, weil sich die Browser – noch dazu abhängig von der gerade installieren Acrobat(Reader) Version - sehr verschieden verhalten.
Wer aufgrund seiner Religion kein target verwenden darf, kann auf Javascript-Konstruktionen zurückgreifen, die das target vor dem Validator verstecken, die aber auch leicht in Popup-Blockern unterdrückt werden.

Spezialkonstruktionen wie das Laden in iFrames sind nur unter sehr kontrollierten Bedingungen sinnvoll und erfordern viel Aufmerksamkeit, weil die sich Bedingungen mit jedem Update des PlugIns ändern.

PDFs und Suchmaschinen

Google listet PDFs recht gerne: Zum einen sind PDFs stabil und ändern sich kaum. Zum anderen enthalten sie in der Regel relativ viel verwertbaren Text. Ob allerdings ein gutes Ranking der PDFs gewünscht ist, ist eine andere Frage: Da PDFs in der Regel aus dem Kontext der Website gerissen sind, bringen pure Impressions wenig. Der Besucher ist kein solcher, er schaut sich die Website selbst nicht einmal an. Dafür erzeugt er mitunter recht viel Traffic, ein paar Mb hat ein PDF schnell mal.
Im wesentlichen geht es darum: Ist das PDF selbst die Botschaft? Ist Logo, CI, Information soweit vorhanden, dass es gar nicht nötig ist, dass der Besucher die Website sieht?

Durchsuchbare PDF-Galerien

PDFs tauchen in der Seitensuche der meisten CMS nicht auf. Eines der Hauptprobleme mit PDFs ist, dass spezielle Server-Erweiterungen nötig sind, um etwa auf den Text zuzugreifen. Server-Erweiterungen sind wiederum teuer, weil sie eben nicht Standard und deshalb auf die eine oder andere Art aufpreispflichtig sind. (Dedicated Server, Provider bestechen usw..)

Und selbst wenn diese Erweiterungen vorhanden sind: Der Text in einem PDF ist nicht direkt das, was man sieht, sondern hängt sehr davon ab, wie und mit welchem Programm das PDF (bzw die zugrundeliegende Datei) erstellt wurde. PDFs aus MS Word enthalten den Text weitgehend so, wie er sichtbar ist, ein PDF aus Indesign hingegen enthält den Text so, wie die Rahmen angelegt wurden – mitunter also kreuz und quer: Die Fußzeile (=Stammseiten-Element) steht oft als erstes im Text. Gar nicht selten wird aus dem Text ein Bild erzeugt – gerade von Überschriften. Diese fehlen dann völlig im Text.
In jedem Fall muss der Text in die Datenbank geladen werden; eine direkte Suche im PDF ist viel zu rechenintensiv. Bei vielen und großen PDFs kann man dabei aber bald an die Grenzen der erlaubten Datenbank-Größe stoßen.

Thumbs und Vorschaubilder

Von einfachen oder älteren PDFs lassen sich ebenso über Server-Erweitungen Vorschauen erzeugen. Sobald aber Farbmanagement oder neuere PDF-Versionen ins Spiel kommen, kann es sehr heikel werden. Lange nicht jedes PDF hat eine brauchbare Vorschau mitgespeichert, fehlt diese oder ist sie zu klein, muss das PDF gerastert werden. Dabei ist wesentlich, welche Formate enthalten sind, ob/wie sie auf überdrucken gestellt sind, ob sie Farb-Profile usw enthalten.

In schwierigen Fällen hilft es, das PDF vor dem hochladen erneut als PDF zu drucken und dabei auf einen älteren Standard (1.4) zu schalten. Wenn das PDF Transparenzen enthält, können dabei haardünne Linien auftauchen; das sind Rundungsfehler. Hier hilft, statt PDF 1.4 auf 1.5 zu schalten, was aber wieder andere Probleme (Flächen mit feinen Farbunterschieden mittendrin) verursachen kann. Die diversen PDF-X Standards kann man sich getrost in die Haare schmieren – sie machen mehr Probleme als sie lösen.
Generell sollten PDFs durchgängig nach sRGB konvertiert werden, und jedes Farbmanagement ausgeschaltet werden.

(Meta-)Tags

Ein PDF enthält einen Standardsatz an Meta-Information, diese können aber auch erweitert werden. In der Praxis zeigt sich, dass selbst die Standard-Tags (Titel, Description, Keywords) kaum genutzt werden. In der Regel bleiben also nur die Tags, die sich technisch ergeben: Breite, Höhe, enthaltene Fonts, verschlüsselte Seriennummer des erzeugenden Programms (jaja – Adobe kennt euch alle!), ursprüngliches Erstellungsdatum, Änderungsdatum usw. Das ist wenig nützlich. Andererseits: Wenn sich jemand die Mühe macht, etwa eine Description anzugeben, dann will er diese auch sehen.
Ebenso wie der Text müssen also auch diese Informationen ausgelesen werden. Das geht meistens mit den selben Erweiterungen, die auch den Text auslesen.

Durchsuchbare PDFs mitsamt Vorschauen: ein Lösungsansatz

Einer meiner Kunden – ein Schraubenhändler ;-) – hat ein paar hundert (5419) PDFs auf der Website, teilweise mit wiederum etlichen hundert Seiten. Der Content all dieser wäre gut 3x soviel wie der Gesamtinhalts der Website – und taucht in der normalen Seitensuche nicht auf. Dabei enthalten gerade diese PDFs die speziellen Suchbegriffe, die häufig gesucht werden, und jedes PDF enthält zumindest das Logo sehr gut sichtbar.

Ich habe daher ein kleines Programm geschieben, das ein angegebenes Verzeichnis nach PDFs absucht und neben jedes eine Vorschau und einen Text mit Meta-Informationen und PDF-Text stellt. Jeweils gleichnamig (das.pdf, das.jpg, das.txt). Daraus werden wiederum Listen, Vorschauen – und die Suchtexte in der Datenbank erzeugt.
Diese Programm ist hässlich, sperrig und – funktioniert.

Der Haken dabei: Es dauert einige Zeit, bis das alles neu gemacht ist; einzelne Neuzugänge können so nicht berücksichtigt werden.

Eine bessere Lösung?

Wie oben, das Generieren der Texte und Vorschauen läuft flott ab, auf Wunsch werden nur neue berücksichtigt. Danach wird der ganze Packen manuell hochgeladen, und einer modifizierten Foldergallery der Pfad mitgeteilt. Dieses Modul erzeugt aus den Vorschaubildern Thumbs in beliebiger Größe, der Text + Tags wird in eine Datenbank geladen. Ab dann tauchen in den Suchergebnissen auch die PDFs auf – mitsamt Vorschau.
Status: Hab ich noch nicht ;-)

Ein prinzipieller Haken dabei immer noch: PDFs, die ein User hochlädt – etwa über die Medienverwaltung – werden ignoriert.
Ein weitere Haken: Die Foldergallery ist von der Struktur her meist nicht das, was man sich zur Darstellung von PDFs wünscht.

Beide Schwierigkeiten lassen sich mit geordneten Abläufen aber in den Griff bekommen. Schließlich ändern sich PDF-Verzeichnisse nicht so oft, sondern sind meist über längere Zeit (1 Jahr?) unverändert.

Back

Kommentare:

29.09.2016

Thomas

Hallo!
Kann ich das (sperrige :-)) Programm "Durchsuchbare PDFs mitsamt Vorschau" irgendwo runterladen?
Danke und Gruss

08.10.2016

Kurt

PDF Suchscript - gibt es da ein Downloadlink? Das möchte ich mal testen - Danke und liebe Grüße

Kommentar

Name:

E-Mail (required, not public):

Webseite:

Kommentar :

Up
K