AI RACE— Cuộc đua AI
Mô hình AI

GPT-5.2 Codex

OpenAI

Phát hànhtháng 12, 2025
Giá input$1.75/1M
Giá output$14/1M

Thứ hạng

#31
AIM 67.6Cao nhất #31
#29
AIM 92.0Cao nhất #29
#53
AIM 90.2Cao nhất #53

Đánh giá

GPT-5.2 Codex nổi bật nhất ở mảng AI agent và scientific reasoning, phù hợp cho các đội cần tự động hóa tác vụ phức tạp hoặc làm việc với domain khoa học chuyên sâu. Tuy nhiên, nếu yêu cầu chính là terminal automation hay CLI scripting khó, cần cân nhắc do Terminal-Bench Hard còn thấp. Đây là lựa chọn tốt cho engineers xây agent-based system hoặc researchers cần reasoning mạnh.

Điểm mạnh

  • Reasoning mạnh trên benchmark khoa học khó: GPQA Diamond đạt 0.899, cho thấy khả năng xử lý câu hỏi chuyên sâu cấp graduate rất tốt
  • AI Agent xuất sắc: τ²-bench đạt 0.921, dẫn đầu trong các tác vụ tự động hóa multi-step và tool use
  • Long Context Reasoning ổn định ở 0.757, phù hợp với tài liệu dài hoặc codebase lớn
  • SciCode đạt 0.546 — mức khá cho coding khoa học/kỹ thuật đòi hỏi hiểu domain

Điểm yếu

  • Terminal-Bench Hard chỉ 0.371, yếu ở các tác vụ CLI phức tạp và shell automation đòi hỏi nhiều bước
  • Humanity's Last Exam đạt 0.335 — cho thấy giới hạn với các câu hỏi cực khó đòi hỏi reasoning đa tầng sâu
  • AA Coding Index 43 và AA Intelligence Index 40.1 cần đặt trong ngữ cảnh leaderboard tổng thể mới đánh giá được tương đối so với các model cùng thế hệ

Use case

Xây dựng AI agent tự động hóa workflow, tool orchestration, hoặc agentic pipeline nhờ τ²-bench caoNghiên cứu và Q&A chuyên sâu về khoa học, kỹ thuật, y tế — nơi GPQA Diamond 0.899 phát huyPhân tích tài liệu dài, codebase lớn, hoặc reasoning trên context nhiều nghìn token

Hướng dẫn & Video

GPT-5.2-Codex là model chuyên biệt cho lập trình agentic, ra mắt ngày 14/01/2026, tối ưu cho các tác vụ coding dài hạn không mất context. Truy cập qua OpenAI API (model ID: gpt-5.2-codex) hoặc giao diện Codex trong ChatGPT Plus/Pro. Dùng để viết code, debug, review PR, refactor toàn bộ repository một cách tự động. Mẹo dùng hiệu quả: viết prompt rõ ràng về mục tiêu, tech stack, và file liên quan; chia task phức tạp thành sub-goals nhỏ. Lưu ý: tính đến tháng 6/2026, model này đã bị sunset và được thay thế bởi GPT-5.3-Codex và GPT-5.5.

Bài review