AI Agent Auditing/Benchmark
(human) → input → agent → (task) ↔ tool → output ↔ (human)
Agent Graph Rubrics
- Sharing and distinguishing prompts between entities/relations is an important criterion
- Agent Graph should be generally explain every traces not only a single trace
Objectives
- Implanting multi-agent AI auditing system into holistic service/API platform.
Agent Graph Notion
결과
- parallel entity/relation 안정적이나 다름
- sequential entity/relation 불안정하고 다름
- hybrid 젤 좋음 brain useage 를 잘나눈듯 앞에는 정보추출 집중 두번째는 json 에 집중
- clustering 구조는 비슷한데 말이 안댐
- direct llm 불안정하나 젤비슷
- 전반적으로 replaced 성능이 좋으나 agent 많은 케이스 하나라 crewai 도 해봐야
Seonglae Cho