Vi byggede et "AI-agent" på 3 dage. Det var en dårlig idé.

En kunde ville have en "AI-agent der automatisk kan håndtere kundesupport-henvendelser". Det var januar 2026, alle talte om agenter, og vi accepterede projektet med mere entusiasme end fornuft.

Vi brugte 3 dage på at bygge den. Vi brugte 1 uge på at smide den ud igen.

Hvad vi byggede

En GPT-4o-baseret agent med function calling til at søge i ordrehistorik, oprette refund-requests og eskalere til en menneskelig agent. Arkitekturen var rimelig: intent classification → tool selection → execution → response generation.

I testing virkede det overbevisende. Agenten håndterede 80% af testscenarierne korrekt på første forsøg.

Problemerne der dukkede op i produktion

Hallucination-rate: 8%. Det lyder ikke af meget. Men hvis 8% af jeres kundesupport-svar er faktuelt forkerte — og kunden handler på dem — er det uacceptabelt.

"AI-agenten hallucinated sig til en refund på 3.400 kr. til en kunde der ikke havde klaget om noget. Det var nok."

Latency: 3–5 sekunder pr. svar. LLM-kald tager tid. For en chatbot kan det accepteres. For et support-system der skal føles responsivt, er det en dårlig oplevelse.

Komplekse flows: agenten tabte tråden. Multi-step instructions der krævede at agenten huskede kontekst fra 4 trin tidligere — det klarede den konsekvent dårligt. Ikke altid, men ofte nok til at det ikke kunne bruges i produktion.

Hvad vi byggede i stedet

Et deterministisk beslutnings-træ til klassificering af henvendelsestype (80% af volumen), og ét LLM-kald til fuzzy matching af kant-cases. Den hybride tilgang løste 94% af henvendelserne korrekt — og de resterende 6% gik til en menneskelig agent med fuld kontekst.

Latency: under 500ms for det deterministiske lag. Hallucination-rate: 0% i det deterministiske lag, under 1% i LLM-laget med stram prompt-engineering og output-validering.

Læringen

LLMs er glimrende til klassificering, opsummering, drafting og extraction. De er dårlige til autonom multi-step reasoning der skal være korrekt 100% af tiden. Hype-drevet arkitektur-valg er dyre — målt i tid, penge og kundetillid.

3 dage

at bygge den

hallucination-rate

1 uge

at smide den ud igen

Hvad vi byggede

Problemerne der dukkede op i produktion

Hvad vi byggede i stedet

Læringen

Vil I snakke om det?