Cómo evaluar agentes de IA: frameworks, métricas y errores comunes