Testlimieten: Drie AI-Benchmark Evoluties
De opkomst van grote taalmodellen heeft de AI-grenzen verlegd, maar domeinspecifieke benchmarks zijn cruciaal. Veiligheid en AI-agent benchmarks winnen ook aan belang. Benchmarking evolueert voortdurend om de prestaties van AI-systemen in realistische scenario's te beoordelen, en niet alleen op complexe problemen.