Zurück zum Blog
KI-Workflows

Aufbau einer kontinuierlich aktualisierten News-Intelligence-Pipeline

Wir haben eine Pipeline aufgebaut, die kontinuierliche Nachrichtenerfassung in persistente Dossiers, Beziehungsprofile und nutzbares Arbeitsgedächtnis für KI-Workflows überführt.

ki-agenten news intelligence wissensbasis workflows

News-Monitoring wird häufig als Retrieval-Problem behandelt. Artikel werden gesammelt, sortiert und ausgeliefert, während die spätere Interpretation dem Nutzer oder einer separaten Anwendungsschicht überlassen bleibt. Für einfaches Lesen ist das ausreichend. Für KI-Workflows, die Kontext behalten, Entwicklungen über die Zeit vergleichen und wiederholt über dieselben Entitäten reasoningfähig bleiben sollen, ist dieses Modell jedoch weniger geeignet.

Bereits bekannt ist, dass Sprachmodelle Dokumente zusammenfassen, Entitäten identifizieren und strukturierte Signale aus Text extrahieren können. Weniger gut verstanden ist jedoch, wie ein Roh-Nachrichtenstrom in dauerhaftes und aktualisierbares Arbeitsgedächtnis überführt werden kann. Ein Feed kann anzeigen, was neu ist, aber meist nicht, was sich rund um eine Entität verändert hat, welche Beziehungen weiterhin relevant sind und welcher Kontext erhalten bleiben sollte.

In dieser Arbeit haben wir auf Basis von Currents eine kontinuierlich aktualisierte News-Intelligence-Pipeline aufgebaut, um zu prüfen, ob laufende Ingestion, strukturierte Extraktion und persistente Pflege gemeinsam eine nützlichere Zustandsrepräsentation erzeugen können als ein reiner Artikelstrom. Zum Zeitpunkt des Schreibens verfolgt das System 547 Entitätsdossiers.

Das Systemproblem

Rohe Artikel sind notwendig, aber nicht hinreichend.

Dasselbe Ereignis erscheint oft in mehreren Medien mit unterschiedlichem Framing. Entitätsnamen sind zwischen Quellen nicht konsistent. Wichtige Entwicklungen akkumulieren sich schrittweise. Zudem liegen viele der relevanten Beziehungen nicht als explizite Metadaten vor, sondern verteilt im Text.

Ein rein artikelgetriebenes System beantwortet daher meist nur eine enge Frage:

Was wurde heute veröffentlicht?

Langlaufende KI-Workflows benötigen jedoch häufig eine andere Frage:

Was hat sich verändert, für wen, und in Bezug worauf?

Dieser Unterschied ist wichtig. Ohne gepflegten Zustand muss derselbe Kontext wiederholt aus Rohartikeln rekonstruiert werden.

Pipeline-Design

Wir haben den Workflow in sechs Stufen organisiert:

Ingest → Extract → Compile → Relate → Index → Maintain

Ingest

Wir ingestieren frische Artikel aus Currents in regelmäßigen Abständen. Diese Stufe liefert stabilen und aktuellen externen Input.

Extract

Jeder Artikel wird durch ein Sprachmodell verarbeitet, das Entitäten, Ereignisse, Beziehungen und Kontextsignale identifiziert. Ein starres Schema wird nicht zu früh erzwungen. Stattdessen soll wiederkehrende Struktur sichtbar werden, bevor sie vollständig normalisiert wird.

Compile

Jeder Entität wird ein persistentes Dossier zugewiesen. Das ist die zentrale Designentscheidung. Neue Evidenz wird nach Möglichkeit in bestehende Datensätze eingearbeitet, statt bei jeder Erwähnung von vorne zu beginnen.

Dadurch verschiebt sich die Gedächtniseinheit von Artikel zu Entitätszustand.

Relate

Das System verfolgt Beziehungen zwischen Entitäten ebenso wie die Entitäten selbst. Dadurch kann es dynamische Interaktion statt bloßer Erwähnungshäufigkeit charakterisieren.

Index

Die kompilierten Dossiers und Beziehungen werden in einen abfragbaren Index geschrieben. Damit wird persistenter Kontext für nachgelagerte Workflows nutzbar.

Maintain

Ein wiederkehrender Wartungsdurchlauf übernimmt Pruning, Deduplizierung, Konfliktauflösung und Health Checks. Diese Stufe ist weniger sichtbar als die Extraktion, aber vermutlich ebenso wichtig. Ohne Pflege akkumulieren doppelte Entitäten, schwache Beziehungen bleiben erhalten, und veraltete Datensätze reduzieren die Selektivität.

Warum persistente Dossiers wichtig sind

Der wichtigste konzeptionelle Wechsel war der Übergang von Schnappschüssen zu Gedächtnis.

Ein klassischer artikelgetriebener Workflow ist für Retrieval optimiert. Er kann gut beantworten, welche Artikel ein Thema zuletzt erwähnt haben. Weniger gut kann er beantworten, welche Information nach der ersten Verarbeitung weiterhin relevant bleiben sollte.

Ein dossierbasierter Workflow kann eine andere Klasse von Fragen unterstützen:

  • Was hat sich rund um diese Entität in den letzten 30 Tagen verändert?
  • Welche Beziehungen sind jetzt stärker ausgeprägt?
  • Welche Themen bleiben stabil, intensivieren sich oder verschlechtern sich?
  • Welchen Kontext sollte ein Agent behalten, wenn dieses Thema erneut auftaucht?

Langlaufende KI-Systeme benötigen nicht nur frischen Input. Sie benötigen aktualisierbaren Zustand.

Ein vereinfachtes Beispiel

Ein vereinfachtes Dossier könnte enthalten:

Federal Reserve

  • Typ: Zentralbank
  • Zuständigkeit: Vereinigte Staaten
  • Schlüsselperson: Jerome Powell

Jüngste Aktivität

  • hielt die Zinsen in der jüngsten Sitzung stabil
  • setzte den Bilanzabbau fort
  • signalisierte, dass zukünftige Senkungen datenabhängig bleiben

Verknüpfte Entitäten

  • Jerome Powell
  • US-Finanzministerium
  • große Aktienindizes
  • Goldmärkte
  • andere Zentralbanken

Die genaue Darstellung kann variieren. Die Funktion bleibt jedoch gleich: Das Dossier ist ein kumulativer Datensatz statt einer einmaligen Zusammenfassung.

Was sich nach der Lektüre von Karpathy verändert hat

Eine spätere Verbesserung ergab sich aus Andrej Karpathys Notiz über den Aufbau und die Pflege von Wissensbasen mit Sprachmodellen.

Der nützlichere Impuls war architektonisch. Rohmaterial kann in einer Schicht verbleiben, während das Modell dieses Material schrittweise in eine strukturiertere Wissensschicht kompiliert.

Wir haben diese Logik in Hermes als Personal-Wiki-Skill mit drei Komponenten formalisiert:

  • links/ für Rohmaterial
  • notes/ für Beobachtungen und Arbeitsnotizen
  • wiki/ für kompiliertes, vom Modell gepflegtes Wissen

Diese Trennung reduzierte die Tendenz, jeden Artikel oder jede Recherche-Session als Wegwerfkontext zu behandeln. Stattdessen konnten nützliche Outputs in eine langlebigere Wissensstruktur zurückgeführt werden. Zusätzlich pflegten wir ein INDEX.md sowie periodische Health Checks für veraltete Seiten, Widersprüche, fehlende Kompilationen und defekte Cross-Links.

Zentrale Beobachtungen

Mehrere Beobachtungen wurden während der Implementierung schnell deutlich.

Erstens scheint Deduplizierung in vielen Fällen wichtiger zu sein als Modell-Cleverness. Wenn die Entitätenschicht verrauscht ist, wird die Intelligenzschicht meist ebenfalls verrauscht.

Zweitens erscheinen inkrementelle Aktualisierungen operativ geeigneter als wiederholte Komplett-Neubauten. Sobald Zustand akkumuliert, ist das Zusammenführen nur des Neuen meist billiger und stabiler.

Drittens trägt die Beziehungsextraktion wahrscheinlich einen großen Teil des langfristigen Werts, ist aber auch die Schicht, in der Drift am schnellsten sichtbar wird. Daher braucht sie explizite Cleanup-Logik.

Schließlich ist Wartung nicht optional. Der Erfolg dieses Ansatzes dürfte davon abhängen, dass Pruning, Merging, Validierung und Coverage-Checks als erstklassige Operationen behandelt werden.

Wo Currents hineinpasst

Currents stellt in dieser Architektur die Ingestion-Schicht bereit.

Das ist wichtig, weil sich der Rest des Systems dadurch auf Extraktion, Organisation, Gedächtnispflege und Abfragbarkeit konzentrieren kann, statt auf die Mechanik der Quellensammlung und Normalisierung.

Du kannst hier starten:

Schluss

Die ursprüngliche Frage war einfach: Wenn ein LLM kontinuierlich mit frischen Nachrichten versorgt wird, kann es dann eine nützlichere Weltrepräsentation bilden als eine Liste von Schlagzeilen?

Unsere Ergebnisse legen nahe, dass die Antwort ja sein könnte, sofern Ingestion mit Extraktion, persistenter Kompilation, Beziehungsprofiling und laufender Pflege kombiniert wird.

Die Implikation ist praktisch. Reine News-Auslieferung reicht für Arbeitsgedächtnis nicht aus. Kontinuierliche Ingestion in Kombination mit persistenten Dossiers scheint jedoch eine stabilere und besser aktualisierbare Wissensschicht für KI-Workflows zu ermöglichen.