Sådan virker det
Den billigste lag, der kan svare, svarer. LLM-kaldet er sidste udvej — kun nået efter hver port er passeret. Hver afvisning har en grund.
Forespørgsel
vilkårligt input
Hastighedsgrænse
pr. IP + dagligt loft
fallback · prøv et eksempelCache
5 hero-svar + semantisk match
hit · server frosset svarDagligt LLM-budget
hårdt loft
tomt · kun cacheHentning
dense ∪ BM25 → cross-encoder rerank
Tærskel τ = 0,56
sigmoid(rerank) ≥ τ — kalibreret
under τ · ikke i korpusJuridisk rækkevidde
“bør jeg…?” · “er min app compliant?”
afvis · juridisk vurderingGenerér forankret svar
eneste LLM-kald · kun fra hentede passager
Svar + citater + revisionsspor