Thứ hạng
Đánh giá
GPT-5.2 Codex nổi bật nhất ở mảng AI agent và scientific reasoning, phù hợp cho các đội cần tự động hóa tác vụ phức tạp hoặc làm việc với domain khoa học chuyên sâu. Tuy nhiên, nếu yêu cầu chính là terminal automation hay CLI scripting khó, cần cân nhắc do Terminal-Bench Hard còn thấp. Đây là lựa chọn tốt cho engineers xây agent-based system hoặc researchers cần reasoning mạnh.
Điểm mạnh
- Reasoning mạnh trên benchmark khoa học khó: GPQA Diamond đạt 0.899, cho thấy khả năng xử lý câu hỏi chuyên sâu cấp graduate rất tốt
- AI Agent xuất sắc: τ²-bench đạt 0.921, dẫn đầu trong các tác vụ tự động hóa multi-step và tool use
- Long Context Reasoning ổn định ở 0.757, phù hợp với tài liệu dài hoặc codebase lớn
- SciCode đạt 0.546 — mức khá cho coding khoa học/kỹ thuật đòi hỏi hiểu domain
Điểm yếu
- Terminal-Bench Hard chỉ 0.371, yếu ở các tác vụ CLI phức tạp và shell automation đòi hỏi nhiều bước
- Humanity's Last Exam đạt 0.335 — cho thấy giới hạn với các câu hỏi cực khó đòi hỏi reasoning đa tầng sâu
- AA Coding Index 43 và AA Intelligence Index 40.1 cần đặt trong ngữ cảnh leaderboard tổng thể mới đánh giá được tương đối so với các model cùng thế hệ
Use case
Hướng dẫn & Video
GPT-5.2-Codex là model chuyên biệt cho lập trình agentic, ra mắt ngày 14/01/2026, tối ưu cho các tác vụ coding dài hạn không mất context. Truy cập qua OpenAI API (model ID: gpt-5.2-codex) hoặc giao diện Codex trong ChatGPT Plus/Pro. Dùng để viết code, debug, review PR, refactor toàn bộ repository một cách tự động. Mẹo dùng hiệu quả: viết prompt rõ ràng về mục tiêu, tech stack, và file liên quan; chia task phức tạp thành sub-goals nhỏ. Lưu ý: tính đến tháng 6/2026, model này đã bị sunset và được thay thế bởi GPT-5.3-Codex và GPT-5.5.