KI-gestütztes Enrichment von Kontaktdaten
Proof-of-Concept für automatisierte, DSGVO-konforme Anreicherung von Kontakt- und Unternehmensdaten (Relationship Management) über OSINT, Web-Scraping und Agentic-AI-Workflows – ein skalierbarer Open-Source-Ansatz für Einkauf, Vertrieb und Wissensmanagement.

Abstract
Das Projekt „KI-gestütztes Enrichment von Kontaktinformationen“ kombiniert klassische Business-Datenpflege mit Agentic-AI-Workflows, OSINT-Methoden und Open-Source-Automatisierung.
Ziel war es, eine skalierbare, datenschutzkonforme und interoperable Lösung zu entwickeln, die aus einfachen CSV-Listen (z. B. Lieferanten oder Leads) automatisch strukturiertes, valides und aktuelles Wissen generiert.
Der Ansatz verbindet Firecrawl-Scraping, Open-Source-Parser, n8n-Automatisierung und CrewAI-Agenten, um Informationen aus dem offenen Web, Registern und sozialen Netzwerken zu aggregieren, zu prüfen und als standardisierte Datensätze (JSON/Pydantic) auszugeben.
Zusammenfassung
Ursprünglich als Werkzeug für Supplier Relationship Management konzipiert, entwickelte sich das Projekt zu einer universellen Lösung für Datenanreicherung im B2B-Kontext.
Ob Einkauf, Vertrieb, Marketing oder Research – überall gilt: Je besser die Daten, desto besser die Entscheidungen.
Das System ergänzt bestehende CSV-Datenbanken um:
- Ansprechpartner, Rollen und Kommunikationskanäle
- Social- und Web-Profile (LinkedIn, Xing, Website)
- Handelsregistereinträge, Branchenklassifikationen und Kennzahlen
- Standortinformationen, Domains und Technologien
Die KI-Logik erkennt Kontextbeziehungen, priorisiert Quellen und validiert die Ergebnisse, bevor sie sie in strukturierte, interoperable Formate überführt.
Problemstellung
Organisationen kämpfen mit unvollständigen, veralteten oder unstrukturierten Kontaktdaten.
Diese Schwächen führen zu erheblichen Effizienzverlusten – sowohl im Einkauf als auch im Vertrieb:
- Veraltete Informationen:
Ansprechpartner wechseln, Websites ändern sich, Datenbanken bleiben statisch. - Manuelle Pflege:
Wochenlange Recherchen in LinkedIn, Handelsregistern und Google-Ergebnissen. - Uneinheitliche Formate:
Unterschiedliche Datenquellen verhindern Systemintegration. - Abhängigkeit von Drittanbietern:
Proprietäre Tools sind teuer, intransparent oder nicht DSGVO-konform. - Wissenssilos:
Marketing, Sales und Einkauf arbeiten an denselben Datensätzen – aber ohne Synchronisierung.
Kurz: Unternehmen wissen oft, wen sie kennen – aber nicht, was sie über diese Personen wissen sollten.
Zielsetzung
Das Projekt zielte darauf, eine universell einsetzbare Enrichment-Pipeline zu schaffen, die:
- vollständig open-source-basiert ist,
- Agentic-AI-Workflows nutzt, um OSINT, Web-Scraping und KI zu kombinieren,
- Datenqualität, Transparenz und Datenschutz gewährleistet,
- Ergebnisse in standardisierten Formaten (JSON/Pydantic) liefert,
- für verschiedene Use-Cases (Einkauf, Vertrieb, Recruiting, CRM) adaptierbar bleibt.
Ansatz & Vorgehen
1. Input & Pre-Processing
- CSV-Import: Basisdaten (Name, Website, E-Mail, Land, Branche).
- Bereinigung & Normalisierung: Deduplizierung, Feldangleichung, Formatprüfung.
2. Data Enrichment Pipeline
- OSINT & Crawling:
- Firecrawl für Web-Scraping, Handelsregister-Crawler, API-basierte Recherchen.
- Identifikation relevanter Social- und Domain-Verknüpfungen.
- theHarvester als OSINT
- KI-Analyse & Klassifizierung:
- CrewAI-Agents für semantische Extraktion (z. B. Rolle, Funktion, Unternehmensgröße).
- Bewertung über Confidence Scores & Quellkonsistenz.
- Agentic-AI-Orchestrierung (Flowise, CrewAI o.ä.):
- Dynamische Rollenverteilung an spezialisierte Agents (Data Miner, Validator, Formatter).
- Iterative Enrichment-Loops für kontinuierliche Qualitätsverbesserung.
- Automatisierung (n8n, Make, Airflow o.ä.):
- Trigger für Import/Export, Benachrichtigungen, CRM-Integration.
3. Output & Integration
- Strukturierter Export:
JSON, CSV, YAML oder direkte API-Syncs. - Kompatibilität:
Direkte Integration in CRM- oder ERP-Systeme (z. B. HubSpot, Odoo, Directus). - Analyse & Visualisierung:
KPI-Tracking über Superset oder Metabase-Dashboards.
Ergebnisse & Wirkung
- Zeitgewinn:
Automatisierte Erkennung & Ergänzung spart bis zu 80 % manuellen Aufwand. - Konsistenz:
Einheitliches, interoperables Datenformat (Pydantic/JSON). - Skalierbarkeit:
Verarbeitung tausender Datensätze parallel. - Qualität:
Validierte, geprüfte und dokumentierte Informationsquellen. - Nachvollziehbarkeit:
Jeder Schritt ist auditierbar – zentral für DSGVO-, AI-Act und DSA-Compliance.
Das System kann sowohl als interner Enrichment-Service in Organisationen laufen als auch als White-Label-Lösung in Beratung, Vertrieb oder Wissensmanagement eingesetzt werden.
Pain Points & Herausforderungen
- Heterogene Datenlandschaft:
Unterschiedliche Quellformate und Sprachen erschweren Standardisierung. - Scraping-Ethik & Recht:
Datenschutzrechtliche Abgrenzung zwischen öffentlichen & personenbezogenen Daten. - Komplexität der Agentensteuerung:
Multi-Agent-Workflows benötigen stabile Governance & Monitoring. - Qualitätsbewertung:
KI muss lernen, verlässliche Quellen zu priorisieren. - Skalierung:
Limitierungen bei API-Zugriffen und Crawler-Geschwindigkeit erfordern Queue-Management.
Lessons Learned
- Automatisierung ≠ Kontext:
KI kann Daten anreichern, aber Geschäftsbeziehungen verstehen bleibt menschlich. - Agentic AI ist ein Framework, kein Plug-in:
Architektur & Monitoring sind entscheidend für Stabilität. - Open Source gewinnt langfristig:
Geringe bis keine Lizenzkosten, volle Kontrolle, bessere Auditierbarkeit. - Ethik & Legalität zuerst:
Nur wer mit Transparenz arbeitet, schafft Vertrauen. - Struktur schlägt Menge:
Pydantic-Modelle erzwingen Ordnung und machen Daten universell nutzbar.
Ableitung für Digi-Pal
Dieses Projekt steht exemplarisch für Digi-Pals Grundidee: aus Daten wird Wissen, aus Wissen wird Wirkung.
- Übertragbar auf jede Form von Wissens- oder Kontaktdatenanreicherung, ob in Einkauf, Vertrieb, HR oder Bildung.
- Integration in Digi-Pals RAG- und Wissensmanagement-Systeme ermöglicht automatisches Verknüpfen, Validieren und Ergänzen von Informationen.
- Kombination mit mem0 oder Haystack erlaubt, Kontextwissen dauerhaft zu speichern und dynamisch abzurufen.
- Für Kunden bietet Digi-Pal damit einen modularen Open-Source-Blueprint, um eigene Agentic-AI-Enrichment-Pipelines aufzubauen – skalierbar, transparent und compliant.
So wird aus einem Proof-of-Concept ein Baustein für ganzheitliche Datenintelligenz – im Sinne Digi-Pals Leitlinie:
„Wer findet, muss nicht suchen.“
Tech-Stack
- Core: Python, Pandas, JSON, Pydantic
- AI & Orchestration: CrewAI, Flowise, Ollama, OpenAI API
- OSINT & Scraping: Firecrawl, Exa, theHarvester
- Automation: n8n, Docker, Coolify, Make, Airflow
- Storage & Backend: Directus, PostgreSQL, MinIO
- Analytics & Dashboards: Apache Superset, Metabase
Persönliche Note
Dieses Projekt vereint meine Erfahrungen aus Einkauf, Prozessdigitalisierung und KI-Integration.
Es zeigt, wie sich klassische Recherchearbeit in smarte, automatisierte Prozesse transformieren lässt – ohne die Kontrolle aus der Hand zu geben.
Besonders faszinierend war das Zusammenspiel aus Open Source, Agentic AI und menschlichem Qualitätsbewusstsein: Technologie als Werkzeug, nicht Ersatz.
Lass uns prüfen, wie du durch KI-gestützte Datenanreicherung deine Kontakte – ob im Vertrieb, Einkauf oder Wissensmanagement – auf das nächste Level bringst.
Transparent. Open-Source. DSGVO-konform.