Sådan virker det

Den billigste lag, der kan svare, svarer. LLM-kaldet er sidste udvej — kun nået efter hver port er passeret. Hver afvisning har en grund.

Forespørgsel
vilkårligt input
Hastighedsgrænse
pr. IP + dagligt loft
fallback · prøv et eksempel
Inputgrænse
token-loft
afvis · for langt input
Cache
5 hero-svar + semantisk match
hit · server frosset svar
Dagligt LLM-budget
hårdt loft
tomt · kun cache
Hentning
dense ∪ BM25 → cross-encoder rerank
Tærskel τ = 0,56
sigmoid(rerank) ≥ τ — kalibreret
under τ · ikke i korpus
Juridisk rækkevidde
“bør jeg…?” · “er min app compliant?”
afvis · juridisk vurdering
Generér forankret svar
eneste LLM-kald · kun fra hentede passager
Svar + citater + revisionsspor