adesso Business Line Microsoft

KI schreibt Code schneller,
als wir ihn überprüfen können.

Andrew Stellman hat das Dilemma 2026 gut beschrieben: Entweder du gibst der KI die Kontrolle und hoffst, dass das Richtige entsteht — oder du reviewst jede generierte Zeile manuell. Beides scheitert in der Praxis. mSCAILE ist der dritte Weg: Vertrauen durch Struktur, nicht durch Hoffnung.

"Either I had to outsource all of my thinking to the AI and just trust it to build whatever code I needed, or I had to review every single file it generated line by line." — Andrew Stellman, O'Reilly 2026
8Prinzipien — toolagnostisch
4Phasen — Plan, Work, Assess, Compound
1Commit pro Session — immer
Iterationen — jede macht die nächste leichter

Drei Mal dieselbe Krise.

1972 bekam Dijkstra den Turing Award für seine Diagnose: Codebasen wachsen schneller als Köpfe sie fassen können. Das Problem tauchte seitdem zweimal wieder auf — jedes Mal in neuer Form, jedes Mal mit derselben Antwort.

1968 — 1970er
Erste Software-Krise
NATO Conference 1968: Projekte scheitern an Komplexität. Antwort: Wasserfall, Requirements, Design Reviews. Richtig in der Theorie, zu schwer in der Praxis.
2001 — 2010er
Zweite Software-Krise
Prozess selbst wird zum Problem: zu langsam, zu starr. Agile und CI/CD: kleinere Schritte, schnelleres Feedback. Specs gelten ab sofort als Overhead.
2026 — heute
Dritte Software-Krise
KI schreibt mehr Code, als wir lesen können. Breunig: "Our problem used to be that we couldn't hold an entire codebase in our head. Now we can't even read our entire codebase." Die Antwort ist wieder Prozess — diesmal schnell genug.
Breunig rechnet es durch: KI-gestützte Entwicklung erzeugt Wasserfall-Volumen im Agile-Takt — genauer: doppeltes Wasserfall-Volumen, siebenmal so schnell wie Agile. Irgendwas muss das auffangen.

Ein Prozess-Framework.
Kein Tool.

mSCAILE definiert, wie Entwickler und KI-Agenten zusammenarbeiten, damit gute Software entsteht — nicht nur viel Software. Es ist die adesso-BL-Microsoft-Implementierung von adSCAILE: 8 Prinzipien, ein Loop, kein vorgeschriebenes Tooling.

Spec-Driven Development
Erst vereinbaren was gebaut wird, dann bauen. Tests prüfen die Spec, nicht den Code. Behavioral Contracts, keine Implementierungsdetails.
Compound Learning
Jede Iteration macht die nächste leichter. Erkenntnisse aus Agent-Logs und Git-History fließen zurück — als Skills, Regeln, Scripts.
Human-in-the-Loop
Der Mensch orchestriert. Die KI implementiert. Architektur-Entscheidungen gehören zum Job — die KI kann sie ausführen, aber nicht treffen.

Fundament, nicht Checkliste.

Jedes Prinzip hat einen Grund, der aus der Praxis kommt. Kein Wasserfall, keine Bürokratie — aber auch kein blindes Vertrauen.

01
Mensch orchestriert, KI implementiert
Human-in-the-Loop · Orchestration Mindset

Der Entwickler besitzt die Architektur und die Entscheidungshoheit. Die KI schreibt Code, führt aus, generiert Artefakte. Was der Mensch entschieden hat, kann die KI nicht mehr umwerfen — nur neue Entscheidungen können das ändern.

"AI-driven development doesn't eliminate the need for developer expertise; just the opposite. The developers who'll thrive aren't the ones who prompt the fastest. They're the ones who think the clearest about what they're building and why."— Addy Osmani, Agentic Engineering (2026)

Andrew Stellman hat ~21.000 Zeilen Python in ~75 Stunden gebaut — mit der Regel, dass die KI allen Code schreibt. Was ihn produktiv gemacht hat, war nicht Vertrauen in die KI. Es war zu wissen, wann sie falsch lag. Erfahrung ist der Multiplikator. Die KI verstärkt sie, sie kann sie nicht ersetzen.

P1Stellman · Osmani · Karpathy
02
Spec-Driven: Verhalten vereinbaren, iterativ verfeinern
Behavioral Contracts · Spec-Coverage · SDD Triangle

Specs beschreiben beobachtbares Verhalten — keine Implementierungsdetails. Tests verweisen auf die Spec, nicht auf den Code. Spec-Coverage ist das relevante Maß: Wie viel des vereinbarten Verhaltens ist durch Tests abgesichert? Code-Coverage sagt nichts darüber aus, ob das Richtige gebaut wurde.

SDD Triangle: Specs definieren Tests und Code, Tests validieren Code — aber Code generiert Entscheidungen, die zurück in die Spec fließen. Kein Wasserfall-Artefakt. Ein Feedback-Loop.
"Write tests that measure your product's functions, not how it performs them. Behavioral contracts grant us the freedom to rebuild and reimplement."— Drew Breunig, 10 Lessons for Agentic Coding (2026)

Breunig hat das an whenwords gezeigt: 750 YAML Conformance-Tests, sprachunabhängig. Jede Implementierung in jeder Sprache wird gegen dieselben Tests validiert. Wenn Code billig ist, sollten Tests das Verhalten beschreiben — nicht die Implementierung. Das gibt die Freiheit, Code wegzuwerfen und neu zu bauen, ohne Tests anzufassen.

P2Breunig · OpenSpec · Fowler
03
Intention explizit festhalten
Intent Ceiling · ADRs · Decision Logs

Code speichert das Wie. Tests beschreiben das Was. Das Warum geht verloren — wenn man es nicht aktiv dokumentiert. In der nächsten Session optimiert die KI eine undokumentierte Entscheidung weg. Nicht böswillig. Sie hält es für besser.

Intent Ceiling: Die KI kann Code lesen und Tests ausführen. Sie kann nicht rekonstruieren, warum eine Entscheidung so getroffen wurde. Das ist eine harte Grenze — nur durch explizite Dokumentation zu durchbrechen.

Stellman zeigt das am Gson-Bug: Ein Sicherheitsproblem, das jahrelang existierte, weil kein Requirement je formuliert hatte: "Duplicate Keys müssen abgelehnt werden, wenn der erste Wert null ist." Rund 50% aller Sicherheitsprobleme sind solche Design-Fehler — für Code-Analyse unsichtbar. Nur wer den Intent kennt, kann seine Verletzung erkennen.

P3Stellman · Breunig · McGraw
04
Eine Session, ein Task, ein Commit
Scope-Kontrolle · Context Engineering

Agenten bekommen kleine, abgeschlossene Aufgaben. Ein Agent, eine Session, ein commitbares Ergebnis. Was die KI weiß, bestimmt ihre Qualität. Je enger der Fokus, desto besser das Ergebnis.

Große Batches scheitern an Kontextlimits, erzeugen Diffs die niemand reviewen kann (auch die KI nicht!), und machen Fehlersuche unmöglich. Stellman hat seinen Quality Playbook in 10 unabhängige Phasen mit je eigenem Kontext zerlegt — und es hat besser funktioniert als eine einzige Mega-Session. Zero Context Carryover ist kein Verlust, wenn der Kontext externalisiert ist.

Karpathy nennt es Context Engineering: das kleinste mögliche Set an hochwertigem Kontext, das das gewünschte Ergebnis maximiert. Eine Engineering-Disziplin — kein Prompting-Trick.
P4Stellman · Karpathy · Anthropic
05
Datenverarbeitung möglichst deterministisch
March of Nines · Scripting over Prompting

Jeder automatisierbare Schritt, der nicht von einem LLM erledigt werden muss, sollte deterministisch von einem Programm erledigt werden. Deterministisch: testbar, reproduzierbar, funktioniert wenn das Token-Budget erschöpft ist.

# Besser:
bun run check-links
vs.
"Claude, prüfe alle Links in diesem Repo"

Karpathys March of Nines: Jeder LLM-Schritt hat eine Zuverlässigkeits-Obergrenze unter 100%. Kaskadiert man Schritte, multiplizieren sich diese Grenzen. Stellman hat es gemessen: 48% → 79% Zuverlässigkeit durch das Herauslösen eines einzigen Validators aus dem LLM in einen 10-Zeilen-Ausdruck.

P5Stellman · Karpathy
06
Qualitätssicherung bleibt deterministisch
Externe Erzwingung · CI · Quality Gates außerhalb der KI

Wenn man eine KI anweist, ein Quality Gate aufzurufen, wird sie es irgendwann vergessen. Ein Prompt ist eine Empfehlung, kein Vertrag. CI-Pipelines vergessen nicht. Schema-Validatoren vergessen nicht. Nur externe Erzwingung ist verlässlich. Quality Gates müssen um die KI herum gebaut werden, nicht in sie hinein.

Deming, 1950: Qualität wird in den Prozess eingebaut, nicht hinterher hineingeprüft. Traditionelles Quality Engineering — Requirements-Tracing, funktionale Tests, Verifikation gegen Intent — wurde nicht aufgegeben weil es schlecht war. Es galt als zu teuer. KI macht es billig genug für jedes Projekt.

"With a solid test suite, an AI agent can iterate in a loop until tests pass, giving you high confidence in the result. Without tests, it'll cheerfully declare 'done' on broken code."— Addy Osmani, Agentic Engineering (2026)
P6Stellman · Osmani · Deming
07
Aktiv gegensteuern: vereinfachen, verwerfen, Prozess fixen
Fail Fast · Einfachheit erzwingen · Prozess vor Artefakt

Generative KI generiert gerne. Sie schätzt Komplexität zu hoch ein, patcht lieber als neu zu denken, stapelt Fixes auf Fixes. Stellman: "I can't think of a single time in the whole project when one of the AIs stepped back and said, 'Tear this out and rethink the approach.'" Der Mensch muss das einfordern.

Drei Runden Debugging sind oft langsamer als ein frischer Anlauf mit besserer Spec. KI-Output ist billig. Einen schlechten Ansatz zu reparieren ist es nicht. Fail Fast ist kein Aufgeben. Es ist ein Neustart mit besserer Spec — nicht mehr Patches auf schlechten Code.

Wenn ein Artefakt nicht den Erwartungen entspricht, ist der Prozess schuld — nicht das Artefakt. Deming: "A bad system will beat a good person every time." Man korrigiert den Prozess, nicht die einzelne Ausgabe.

P7Stellman · Breunig · Deming
08
Compound: kontinuierliche Verbesserung
Wissen akkumulieren · Agent-Logs · Prozess verbessern

Jede Iteration endet damit: Zeit und Tokens in die nächste investieren. Erkenntnisse aus Agent-Logs und Git-History fließen in AGENTS.md, Skills, Scripts und Regeln.

Zwei Ebenen: Transparency (kontinuierlich, fällt bei jedem Task an) und Inspection (periodisch, analog zur Retro in Scrum — Muster erkennen, Prozess anpassen).

Ohne Compound macht die KI bei jedem Durchlauf dieselben Fehler, kennt dieselben Lösungen nicht, verbraucht Tokens für bereits gelöste Probleme. Mit Compound wird die KI selbst besser — nicht nur der Output.

"To spend more time on the hard stuff, minimize the time you spend on easy things. Distill learnings into skills, build loops, automate code reviews, and let your tools compound."— Drew Breunig, 10 Lessons for Agentic Coding (2026)

Every Inc. hat das als Open-Source-Plugin implementiert. Am Ende jeder Aufgabe extrahiert ein Skill die Erkenntnisse, legt sie in docs/solutions/ ab — automatisch indexiert für die nächste Session. Details →

P8Breunig · Every Inc.

Plan. Work. Assess. Compound.

Ein Loop. Kein Waterfall mit 10 Gates, keine 5 spezialisierten Rollen. Die Tiefe pro Phase skaliert mit dem Risiko.

01
PLAN
Behavioral Contracts definieren. Intent dokumentieren. Scope auf einen Task begrenzen.
02
WORK
KI implementiert, Mensch orchestriert. Deterministisches deterministisch. Commit nach jedem Schritt.
04
COMPOUND
Erkenntnisse aus Agent-Logs. AGENTS.md verbessern. Wiederholtes automatisieren.
03
ASSESS
Quality Gates extern erzwingen. Spec-Coverage prüfen, nicht Code-Coverage.

Ein Bugfix braucht nicht alle vier Phasen in voller Tiefe. Ein neues Feature mit Sicherheitsrelevanz schon.

Was mSCAILE ist — und was nicht.

mSCAILE ist …mSCAILE ist NICHT …
Ein Prozess-FrameworkEin Tool oder eine Software
Spec-DrivenWasserfall
IterativSequenziell mit Gates
LeichtgewichtigBürokratisch
Human-in-the-LoopVoll-autonom
Technologie-agnostischTooling-spezifisch
Compound (lernt)Einmalig (vergisst)

Vergleich mit adSCAILE →   mSCAILE und Agilität →

Woher die Prinzipien kommen.

Von Entwicklern, die mit KI-Agenten arbeiten und darüber schreiben — nicht aus dem Labor.

Addy Osmani · 2026
Agentic Engineering
Wie diszipliniertes KI-Engineering aussieht — und warum Vibe Coding und Agentic Engineering fundamental verschieden sind. Kernquelle für P1 und P6.
addyosmani.com/blog/agentic-engineering
Simon Willison · 2025
Not all AI-assisted programming is vibe coding
"I won't commit code I couldn't explain to someone else." Die Unterscheidung zwischen blindem Vertrauen und reflektierter Nutzung.
simonwillison.net · 2025
Anthropic Engineering · 2026
Building a C Compiler with a Team of Parallel Claudes
16 parallele Claude-Instanzen, $20.000 Compute, ein Rust-C-Compiler. Was KI-Agenten können, wo sie scheitern, warum Tests die Grundlage sind.
anthropic.com/engineering
Anthropic Engineering · 2025
Effective Context Engineering for AI Agents
Context als finites Gut mit abnehmenden Erträgen. Compaction, Structured Note-Taking, Sub-Agent-Architekturen. Der technische Unterbau von P4.
anthropic.com/engineering
Every Inc.
Compound Engineering Plugin
Open-Source-Referenzimplementierung des Compound-Mechanismus. Extrahiert Erkenntnisse, kategorisiert und indexiert sie für künftige Sessions automatisch.
github.com/EveryInc
Martin Fowler / Ham Vocke · 2018
The Practical Test Pyramid
"Test for observable behaviour instead." Galt 2018. Gilt 2026 noch mehr. Grundlage für P2.
martinfowler.com · 2018