Deduplizierung für Dummies
Sie kennen das vielleicht aus TV-Shows: Ein Mann betritt die Bühne, bekommt eine Zahl mit 100 und mehr Stellen präsentiert und drei Minuten Zeit, sich diese ellenlange Nummer zu merken. Für den Normalkonsumenten unfassbar, der schon mit seinem Lang- und Kurzzeitgedächtnis, dem Kartenspiel Memory und häufig gewählten Telefonnummern seine liebe Mühe hat.
Wer sein Gedächtnis auf diesen hohen Stand bringen will, der findet im Internet zahlreiche Tipps, wie er seine grauen Zellen trainieren kann. Der Grundtenor ist einfach zu verstehen, aber schwer umzusetzen: Man nimmt sich eine abstrakte Zahl und füllt diese mit Inhalt und Bedeutung.
Gedächtnistrainer haben für diese Übersetzungsleistung einige Tipps und Tricks parat. Der Memory-Schüler muss sich Gegenstände des täglichen Lebens imaginieren und zwar so, als ob er diesen Gegenstand konkret vor sich sieht. Kann er dieses Bild mit einer Zahl verbinden, dann hat er den ersten Schritt geschafft. Eine einzelne duftende rote Rose könnte vielleicht für die Zahl eins stehen, die Brooklyn-Brücke in New York für die Zahl zwei, ein Hut für die Zahl drei, die blaue Mauritius für die Zahl vier, usw.
Auf die richtige Geschichte kommt es an
Um an TV-Shows teilnehmen zu dürfen, sollte man Bildmaterial für die Zahlen 00 bis 99 mitbringen. Damit hätte man dann schon mal eine gute Grundlage. Ungelöst ist damit aber noch die Position des Zahlenpaars in der Gesamtziffer. Wer jetzt eine gute Geschichte aus seinen Zahlenpaarbildern fertigen und mindestens im Kurzzeitgedächtnis speichern kann, hat gewonnen.
In der Informationstechnik (IT) begeistert eine ähnliche Form von „Gedächtnistraining“ seit etwa drei Jahren Hersteller wie Anwender. Nachdem man über Jahrzehnte hinweg den Gedächtnisspeicher mit „0“ und „1“ überfüllt hat, um diesen dann mit immer mehr Rechenleistung zu durchforsten, tritt jetzt eine Kehrtwende ein.
Mit ein wenig Mathematik und Software, Algorithmen genannt, funktionieren in der IT die Analogien. Damit es nicht zu einfach wird, produziert man hier für 512-stellige Binärzahlen jeweils ein „Bild“, das als Zeiger, Referenz, Hash oder auch Fingerprint bezeichnet wird. In einer Tabelle legt man anschließend in der richtigen Reihenfolge die „Bilder“ ab und setzt diese bei Bedarf wieder mit den zugeordneten Binärzahlen zusammen.