Coflnet

Fallstudie: Neuentwicklung eines Scraping-Systems

Flou
#case-study#scraping#big data#ai
  • Im Jahr 2023 übernahm Coflnet ein Projekt für ein innovantives Werbeunternehmen aus Norddeutschland. Das Unternehmen nutzte bereits ein Web-Scraping-System, das ihnen jahrelang gute Dienste geleistet hatte und Millionen von Artikeln von verschiedenen Webseiten gesammelt hatte. Doch mit der Zeit stieß das alte System an seine Grenzen: Es wurde unzuverlässig, ineffizient und war nicht mehr in der Lage, die für das Unternehmen wichtigsten Seiten optimal zu scrapen.

    Das Unternehmen benötigte eine neue, effizientere Lösung, die gezielt die relevanten Webseiten scrapen konnte. Hier kam Coflnet ins Spiel.

    Wir haben für diesen Kunden bereits ein System mit großem Erfolg entwickelt. Also war es logisch, dass wir auch dieses Projekt übernehmen würden.

    Das Problem

    Das zentrale Problem war nicht, bei Null anzufangen, sondern von einem alten, unzuverlässigen System zu migrieren. Das vorhandene Scraping Systems, das das Unternehmen bisher eingekauft hat, war überfordert. Zu oft wurden wichtige Informationen von Seiten nicht korrekt erfasst, was zu ungenauen Daten und später falschen Entscheidungen führte. Da mittlerweile jedoch bereits mehrere Millionen von Artikeln mit diesem alten System gesammelt hatte, konnte es nicht einfach aufgegeben werden.

    Die Herausforderung bestand darin, diese Migration durchzuführen, ohne eine große Downtime entstehen zu lassen, und gleichzeitig ein neues, optimiertes Scraping-System zu entwickeln, das sich auf die für das Werbeunternehmen relevanten Webseiten konzentrierte.

    Die Vorgehensweise

    Coflnet ging das Projekt mit zwei klaren Zielen an: Die vorhandenen Daten sollten zuverlässig und zugänglich bleiben, und ein neues Scraping-System sollte entwickelt werden, das schneller, robuster und besser auf die Anforderungen des Werbeunternehmens zugeschnitten war.

    1. Entwicklung eines neuen Scraping-Systems: es wurde eine völlig neue Scraping-Engine entwickelt, die auf die dynamische und sich ständig verändernde Struktur von Webseiten ausgelegt war. Dieses System war speziell darauf optimiert, die für das Werbeunternehmen wichtigsten Webseiten zu scrapen.

      • Die Scraper wurden so entwickelt, dass sie anpassungsfähiger sind und besser mit Layout-Änderungen oder Anti-Scraping-Mechanismen umgehen können.
      • Das System wurde außerdem auf Geschwindigkeit optimiert, sodass neue Inhalte schnell gescraped und gespeichert werden konnten, um dem Werbeteam stets aktuelle Daten zu liefern. Da die meisten relevanten Artikel für das Werbeunternehmen immer die sind, die zuletzt veröffentlicht wurden.
    2. Kompatibilität mit dem alten System: Die Daten, die das neue System generiert, sollten kompatibel mit dem alten System sein. Die Daten, die das neue System generiert, werden über die gleiche Schnittstelle in das Ziel-System übertragen, wie die Daten des alten Scraping Systems.

    Ergebnisse

    Die Migration zum neuen Scraping-System war ein voller Erfolg. Das Werbeunternehmen verfügt nun über eine schnelle, zuverlässige und hochgradig zielgerichtete Lösung, die sich auf die für sie wichtigsten Webseiten konzentriert.

    Ausblick

    Das neue System unterstützt das Werbeunternehmen weiterhin bei seinem Wachstum. Mit einer skalierbaren Datenbank und einer flexiblen Scraping-Engine ist das Unternehmen bestens gerüstet, um mehr Daten zu verarbeiten, in neue Märkte zu expandieren und sich an die Veränderungen in der digitalen Welt anzupassen.

    Dieses Projekt zeigt, wie wichtig es ist, nicht nur neue Technologien zu entwickeln, sondern auch alte Systeme effektiv zu migrieren, um Kontinuität und Zuverlässigkeit sicherzustellen.

    ← Back to Blog