LLM Evaluation

Creator

Creator

Seonglae Cho

Created

Created

2024 Jul 5 15:51

Editor

Editor

Seonglae Cho

Edited

Edited

2024 Oct 31 11:16

Refs

Refs

Creating a LLM-as-a-Judge That Drives Business Results –

A step-by-step guide with my learnings from 30+ AI implementations.

Creating a LLM-as-a-Judge That Drives Business Results –

https://hamel.dev/blog/posts/llm-judge/

Creating a LLM-as-a-Judge That Drives Business Results –

Finding GPT-4’s mistakes with GPT-4

CriticGPT, a model based on GPT-4, writes critiques of ChatGPT responses to help human trainers spot mistakes during RLHF

Finding GPT-4’s mistakes with GPT-4

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

Finding GPT-4’s mistakes with GPT-4

Recommendations

////////