Journalismus | Eingangsseite

Schreib-Werkzeuge

Grundlegende Ordnung über das Dateisystem

Jeder Rechner arbeitet mit einem Dateisystem. Unter Windows beginnt es mit C:, darüber liegen mindestens WINDOWS und TEMP. (Unix ordnet die Dateien ähnlich. Dort beginnt das Dateisystem mit / (genannt root) und dann folgen u.a. usr und tmp.)

Es liegt nahe, das Dateisystem auch für die Arbeit zu nutzen. Dabei benutze ich auf der ersten Ebene zwei getrennte Verzeichnisbäume. In dem einen - archiv - sammele ich jene Texte, die eine höhere Halbwertzeit haben. Dazu gehören z.B. Frage-Antwort-Kataloge aus dem Usenet oder die quasi-Standards des Internet, die RFCs. Entsprechend findet sich unter archiv das Verzeichnis doc wiederum aufgeteilt in faq und rfc.

Das andere Verzeichnis - netpol - gliedert ebenfalls nach inhaltlichen Kriterien tagesaktuelle Meldungen und eigene Artikel. Die Trennung hat praktische Gründe. Sie sorgt für mehr Übersichtlichkeit. Daneben soll auch möglichen Schäden vorgebeugt werden: Beide Verzeichnisse liegen auf verschiedenen Partitionen. Nimmt ein Dateisystem Schaden, bleibt das andere unbehelligt. (Unix wie DOS sehen die Möglichkeit vor, Festplatten zu unterteilen (partitionieren). Während DOS daraufhin so tut, als arbeite es mit mehreren Platten C: und D: usw., erlaubt es Unix, die Stellen zu definieren, an denen Partitionen ins System eingehängt werden.)

Übersichtlichkeit in Verzeichnissen

In der Regel laufen auch Verzeichnisse irgendwann über: Es ist nicht mehr auf einen Blick erkennbar, was darin abgelegt wurde. Das Phänomen stellt sich besonders dann ein, wenn die Recherchen ausufern. Dazu gesellen sich eine Reihe weiterer Unannehmlichkeiten. Die Browser geben beim Abspeichern den Original-Dateinamen vor. Das mag zwar dem Webmaster einer Site etwas sagen, aber spätestens nach zwei Tagen weiß ich nicht mehr, woher die Datei kommt und was darin steckt. Ähnlich verhalten sich manche E-Mail- und Nachrichtenprogramme (Newsreader), wenn sie den Betreff einer Nachricht als Dateinamen vorschlagen.

Da die Beschränkung auf kurze Dateinamen nicht (mehr) gilt, bietet sich die Chance, auszufern. Dementsprechend beginnt die Namensvergabe für alle zu speichernden Texte mit einem Datumsstempel in der Form JJ-MM-TT. Der Stempel spiegelt das Datum der Veröffentlichung. Da die Verzeichnisanzeige Dateien alphabetisch nach Namen sortiert erscheinen die Texte bei einem Blick ins Verzeichnis bereits geordnet. Hinter dem Datumsstempel folgt die Quelle und im Anschluß eine Art Überschrift für den Artikel. Den letzten Teil des Dateinamens bildet in der Regel ein Kürzel, welches auf das Format der Datei hinweist: .html, .txt, .mail usw.

Bei der Arbeit am Netpol-Digest hat sich bereits das Phänomen eingestellt, daß ich nach vier Wochen nicht mehr weiß, welche Artikel im Laufe des Monats entstanden sind, und welche in den Digest Eingang finden sollen. Aus diesem Grund lautet der Dateiname für alle Artikel »Artikel«. Das Unix-Programm find hilft dann alle Dateien mit diesem Namen, die nach einem vorgegebenen Zeitpunkt erstellt worden sind, aufzufinden.

Aus dieser Konvention folgt, daß nicht zwei Artikel in einem Verzeichnis liegen können. Sollte ein Thema wiederholt auftauchen, z.B. MP3, wird ein Verzeichnis, wenn möglich, weiter inhaltlich untergliedert, ansonsten erhält auch das neue Unterverzeichnis mit dem alten Artikel und Recherchematerial einen Datumsstempel.

[ADRESSEN]

Suchen und Finden

Ab einer bestimmten Größe geht auch bei einem geordneten Verzeichnisbaum die Übersicht verloren. Das dürfte besonders dann der Fall sein, wenn er täglich wächst. Bei begrenzten Textmengen hilft das Werkzeug grep. Es durchsucht jede ihm vorgegebene Datei nach einem bestimmten Muster. (Der M$-Explorer bietet eine ähnliche Möglichkeit.) Bei wachsenden Dateibäumen dauert das Durchsuchen jedoch immer länger.

Sinnvoller wäre es, eine Art Datenbank anzulegen, die vermerkt, welche Stichworte auf welche Datei zutreffen. Unter Unix hilft das Programm glimpse aus dem Fundus der freien Software. Es bekommt ein Ausgangsverzeichnis gesagt und indiziert sämtliche Dateien, die unterhalb dieses Verzeichnisses lagern. Den Index legt es in einem beliebig einzustellenden Verzeichnis ab. Anschließend spuckt glimpse nach einer Anfrage mit bestimmten Stichworten alle Dateinamen aus, die darauf zutreffen. Das Arbeitsprinzip ist also dem der Suchmaschinen ähnlich.