Das Beste an Apache Kafka? Es ist langweilig!

Wie ein System, das einfach funktioniert, der deutschen Medienlandschaft hilft, täglich Millionen Leser zu zählen. Ein Interview mit Felix Sponholz.

Von Anatoly Zelenin

Du arbeitest für ein Unternehmen, mit dem gefühlt alle Menschen in Deutschland indirekt zu tun haben, das aber niemand wirklich kennt. Was macht die INFOnline?

Wir sind ein Unternehmen aus Bonn und sorgen online für das Äquivalent zur Reichweitenbestimmung im Fernsehen. Also für Websites, Apps und andere Portale im deutschsprachigen Raum. Unser Ziel ist es, dass wir im Onlinemarkt eine Vergleichbarkeit herstellen.

Ihr seid so etwas wie Google Analytics?

Wir sind ganz und gar nicht wie Google Analytics. Wir bieten zwar auch Firmen eine Reichweitenmessung an, halten uns aber an alle Datenschutzbestimmungen in Deutschland und Europa.

Wie erfasst man denn datenschutzkonform Reichweiten?

Um nicht zu sehr ins Detail zu gehen: Wir bieten für die Websites von Kundinnen und Kunden Sensoren wie zum Beispiel Zählpixel an. Sie melden uns sofort, wenn es einen Request auf der Seite gibt, also ein User mit ihr interagiert. Heißt: Wir wissen zwar nicht, wer da unterwegs ist, aber immerhin sicher, dass eine Person sich auf der Website bewegt.

client-quote-img

Ich habe Spaß mit Kafka. It just works - und ich liebe Sachen, die just worken.

Felix Sponholz
Softwareentwickler, INFOnline GmbH

Wozu braucht ihr da Kafka?

Wir verarbeiten sehr große Datenmengen. Wir müssen jede Interaktion, die ein User auf einer Website macht, auffangen, aufbereiten, erweitern und anpassen. Mit Kafka können wir diese Datenströme in Echtzeit managen.

Über welche Datenmengen reden wir?

Von ungefähr 15.000 Datenpunkten pro Sekunde. Wie viele das pro Stunde und am Tag sind, kann jeder selbst ausrechnen.

Felix Sponholz ist ein erfahrener Softwareentwickler bei der INFOnline GmbH und ist mitverantwortlich für den Betrieb und die Weiterentwicklung von ETL-Pipelines, die für Analysen und Reportings eines bedeutenden Teils der deutschsprachigen Online-Medienlandschaft genutzt werden. Seine besondere Expertise liegt in der Entwicklung skalierbarer Datenverarbeitungssysteme, die eine effiziente Erfassung und Analyse großer Datenmengen ermöglichen.

Wenn man so viele Daten verarbeiten kann, was fällt einem dabei auf?

Auch wenn das lineare Fernsehen an Stellenwert verloren hat, sehen wir, dass 20:15 Uhr noch immer eine gelernte Zeit ist. Die Menschen gehen dann sehr stark online. Sie informieren sich zum Feierabend, suchen nach Inspiration für den Filmabend oder schauen, wie morgen das Wetter wird. Von den Daten her lässt sich ablesen: Ab 20:15 Uhr wird es sich in Deutschland immer noch gemütlich gemacht.

Um etwas detaillierter zu werden: Warum nutzt ihr Kafka?

Das klingt jetzt relativ simpel, aber es ist wichtig: Kafka bereitet uns keine Kopfschmerzen. Kafka funktioniert. Wir können große Datenmengen in hoher Geschwindigkeit sicher vom Request über den ETL-Prozess in das Dashboard unserer Kundinnen und Kunden bringen. Kafka ist in unserer Datenpipeline das robusteste System.

Das wird überraschen: Im Internet ist oft zu lesen, dass Kafka recht aufwändig wäre?

Wir hatten das damals auch so wahrgenommen bei der ersten Recherche. Was wir sagen können: Kafka mag im Set-up relativ aufwändig sein, gerade dann, wenn man es in eine große IT-Infrastruktur integriert. Wenn das allerdings sorgsam erledigt wird, macht Kafka hinten raus keine Probleme. Man muss sich eben die Initialaufwände zutrauen. Wir haben allerdings auch einen Vorteil: Wir bewegen uns in einem sehr statischen Rahmen. Wenn es volatiler wäre, mehr mal spontan angebaut werden muss, könnte Kafka sicher manchen etwas zu komplex sein. In unserem Anwendungsgebiet ist Kafka aber genau richtig.

Warum sind Echtzeitdaten für euch so wichtig?

Es gibt da zwei wesentliche Gründe: Erstens, ist es cool für unsere Kundinnen und Kunden, wenn sie im Dashboard live sehen, was auf ihren Plattformen passiert. Da ist Bewegung drin, das wirkt lebendig. Zweitens sprach ich die Datenmengen an. In unserem Verarbeitungsprozess werden die Informationen auf mehreren Stufen aggregiert. 15.000 Daten pro Sekunde sind da schon eine Herausforderung für andere Systeme. Es passiert insgesamt sehr viel gleichzeitig. Durch die Echtzeitverarbeitung entsteht aber ein konsistenter Datenfluss. Würden wir nur alle fünf Minuten Datenpakete verarbeiten können, wäre das ein viel größerer Brocken. Statt permanent 15.000 Daten würden auf einmal fast vier Millionen in die Systeme fließen und diese oft überlasten. Kafka beschleunigt und erleichtert uns den Prozess.

Was ist der Worst Case in Sachen Echtzeitverarbeitung?

Wir sprechen bei Kafka von 5 bis 6 Sekunden Verzögerung. Das ist ein ganz anderer Wert als in einigen anderen unserer Systeme, wo man von 10 Minuten und mehr Verzögerung ausgehen kann.

Welchen Stellenwert an Kafka in der Softwarelandschaft?

Ich kann es nur wiederholen: Wir haben mit Kafka keine Kopfschmerzen. Das haben uns schon andere Consultants und Softwarehersteller versprochen - und die haben ihr Wort nicht gehalten. Wir waren daher bei Kafka zunächst skeptisch (und auch noch gebrandmarkt), aber anders als manch anderes System hat es uns nicht enttäuscht.

Könntet ihr dann nicht weitere oder gar alle Prozesse mit Kafka abbilden?

Wir würden es gerne an mehr Stellen einsetzen, aber das ist aufwendig in der Migration und das zahlt nicht jeder Kunde. Daher verfahren wir so, dass wir neue Lösungen möglichst auf Kafka aufbauen - und unsere bestehenden Systeme nach und nach modernisieren.

Was ist eigentlich schwieriger: Daten erhalten oder verarbeiten?

Im Gesamtkontext? Erhalten! Das liegt bei uns am Datenschutz und an eingesetzten Adblockern. Bei Kafka selbst ist beides schmerzfrei.

Klingt fast so: Der größte Mehrwert von Kafka ist, dass es langweilig ist.

Ich habe Spaß mit Kafka, finde es nicht langweilig. It just works - und ich liebe Sachen, die just worken.

INFOnline GmbH ist der führende Anbieter für Digital Audience Measurement in Deutschland. Als zentraler Ansprechpartner der Online-Branche bietet das Unternehmen standardisierte, datenschutzkonforme Nutzungsmessung von Websites gemäß IVW-Vorgaben. Mit 35 Mitarbeitern kombiniert INFOnline hohe Expertise und Kundenorientierung, um zuverlässige, DSGVO & TTDSG-konforme Leistungswerte für den Online-Markt bereitzustellen.

Welches Feature würdest du dir bei Kafka wünschen?

Für unseren Use-Case ist die Lösung annähernd perfekt. Ich würde mir aber für die Arbeit mit dem System ein beseres User-Interface wünschen. Hier gibt es noch Verbesserungspotenzial.

Wir arbeiten mal mehr, mal weniger zusammen, um mal nach einem Feedback zu fragen: Was bringt euch eine Zusammenarbeit?

Am Ende hast du uns die Angst genommen, von der wir online gelesen haben. Die Grundlagenschulung war wichtig, damit wir Kafka effizient nutzen und wir das komplexe Set-up nicht aus Versehen noch komplexer gestalten. Genauso relevant: Du warst auch im Nachhinein für uns da, hast uns geholfen, wenn es mal ein Problem gab. Die Zusammenarbeit hat das Set-up von Kafka für uns handlebar gemacht.

Anatoly Zelenin vermittelt als IT-Trainer hunderten Teilnehmern Apache Kafka in interaktiven Schulungen. Seine Kunden aus dem DAX-Umfeld und dem deutschen Mittelstand schätzen seit über einem Jahrzehnt seine Expertise und seine begeisternde Art. Darüber hinaus ist er nicht nur IT-Berater und -Trainer, sondern erkundet auch als Abenteurer unseren Planeten.