Change Detection einfach erklärt: Content-Hash, Diff und KI

Das Problem: was bedeutet "geändert"?

Beim Begriff "Änderungs-Erkennung" denken viele intuitiv: man vergleicht den alten Inhalt mit dem neuen, und wenn sich was unterscheidet, ist es eine Änderung. Klingt einfach. In der Praxis ist es voller Fallstricke.

Eine durchschnittliche Website besteht aus drei Schichten:

Echter Inhalt — Artikel, Produktinfo, Preis, Pressemitteilung
Strukturelles Drumherum — Navigation, Footer, Cookie-Banner, Werbung
Dynamisches Rauschen — Zeitstempel "vor 3 Minuten", "Live-Counter", rotierende Werbung

Eine gute Change Detection muss Layer 1 erkennen und die Layer 2 und 3 ignorieren. Sonst bekommst du ständig Falsch-Alarme.

Methode 1: visueller Pixel-Diff

Tools wie Visualping vergleichen Screenshots Pixel für Pixel.

Funktioniert auf jeder Seite, auch bei JavaScript-Apps
Problem: ist extrem sensitiv. Eine wechselnde Werbeanzeige löst einen Alert aus, eine verschobene Schaltfläche auch
Lösung: man kann meist Bereiche der Seite ausschließen — was wieder Handarbeit pro Quelle bedeutet

Methode 2: DOM-basierter Vergleich

Hier wird der HTML-Baum (DOM) verglichen — z.B. mittels CSS-Selektoren, die exakt die zu beobachtenden Elemente bezeichnen.

Funktioniert sehr präzise, wenn man weiß was man will
Problem: Setup pro Seite ist Arbeit. Sobald die Ziel-Website ihr Layout ändert, brechen die Selektoren
Tools: Distill.io ist hier der Klassiker

Methode 3: Content-Hash (so macht es SumYou)

Hier wird die Seite zuerst auf den redaktionellen Inhalt reduziert (Layer 1 oben), und dann wird dieser Inhalt durch eine kryptografische Hash-Funktion gejagt — typischerweise SHA-256 oder MD5.

Beispiel:

```

Original-Text: "Apple iPhone 15 Pro - 1.299 EUR"

SHA-256: a4f8e2c9d1b7...

Neuer Text: "Apple iPhone 15 Pro - 1.199 EUR"

SHA-256: 9c2e1f6a4d8b... (komplett anderer Hash)

```

Vorteil 1: Schnell. Hash-Vergleich ist O(1) statt O(n) wie ein Text-Diff
Vorteil 2: Speicher-effizient. Statt den ganzen Seiteninhalt zu lagern, reichen 64 Zeichen
Vorteil 3: Präzise. Wenn die Inhalts-Extraktion gut ist, gibt es keine False Positives durch Layout-Änderungen
Voraussetzung: die Inhalts-Extraktion muss zuverlässig sein. Wenn der Cookie-Banner mitkommt, ändert sich der Hash bei jedem Banner-Update

Methode 4: Hash + Diff (das volle Bild)

Ein Hash sagt nur: "es hat sich was geändert". Aber was geändert hat, weiß er nicht. Deshalb speichert SumYou zusätzlich den Original-Text und berechnet bei einer Änderung einen klassischen Text-Diff — eine Liste der hinzugefügten und entfernten Zeilen.

Mit Hash + Diff hast du:

Schnelle Änderungs-Erkennung
Präzise Beschreibung was sich geändert hat
Geringe Speicher-Kosten

Methode 5: KI als Lese-Schicht

Selbst ein Diff ist für Menschen mühsam zu lesen. "Zeile 145 entfernt, Zeile 146 hinzugefügt — was bedeutet das?"

SumYou lässt ein Large Language Model (GPT-4o-mini, Fallback Claude) den Diff lesen und in 2-3 Sätze zusammenfassen. Das LLM bekommt nicht den ganzen Seiteninhalt, sondern nur die Änderungs-Bereiche, plus ein striktes Prompt:

> "Beschreibe in maximal 3 Sätzen, was sich geändert hat. Spekuliere nicht. Wenn unklar, sage 'unklar'."

Damit wird aus einem rohen Diff ein lesbarer Satz wie:

> "Apple hat den Preis für das iPhone 15 Pro um 100 EUR auf 1.199 EUR gesenkt."

Wo die Methode an ihre Grenzen kommt

Hash-basierte Detection ist robust, aber nicht perfekt:

Datums-Stempel im Content — "vor 3 Minuten aktualisiert" ändert den Hash, ohne dass sich was Echtes geändert hat. SumYou versucht solche Stempel beim Extrahieren zu erkennen und zu normalisieren.
Personalisierte Inhalte — wenn die Seite je nach Geo-IP unterschiedlichen Content liefert, kann sich der Hash zwischen Checks ändern, obwohl niemand was redaktionell geändert hat
A/B-Tests — manche Seiten zeigen 50 % der Besucher Variante A, 50 % Variante B. Der Hash flippt dann zufällig
Echte aber unwichtige Änderungen — z.B. Tippfehler-Korrekturen. Der Hash unterscheidet nicht zwischen "Komma korrigiert" und "Preis halbiert"

Punkt 4 ist genau, wo die KI-Schicht hilft: Sie kann eine Wichtigkeit (low / medium / high / breaking) klassifizieren, sodass du nicht zu jeder Tippfehler-Korrektur eine Mail bekommst.

Fazit

Change Detection klingt einfach, ist aber ein Kompromiss zwischen Sensitivität (alles erkennen) und Präzision (nur Wichtiges melden). Hash-basierte Erkennung mit guter Inhalts-Extraktion ist heute der Goldstandard für textuelle Änderungen — kombiniert mit einer KI-Schicht, die das Ergebnis lesbar macht.

Probiere SumYou kostenlos und erlebe selbst, wie sich Hash + Diff + KI in der Praxis anfühlt.