🎯 Загружено автоматически через бота:
🚫 Оригинал видео:
📺 Данное видео принадлежит каналу «AI Explained» (@aiexplained-official). Оно представлено в нашем сообществе исключительно в информационных, научных, образовательных или культурных целях. Наше сообщество не утверждает никаких прав на данное видео. Пожалуйста, поддержите автора, посетив его оригинальный канал.
✉️ Если у вас есть претензии к авторским правам на данное видео, пожалуйста, свяжитесь с нами по почте support@, и мы немедленно удалим его.
📃 Оригинальное описание:
o3 isn’t one of the biggest developments in AI for 2 years because it beats a particular benchmark. It is so because it demonstrates a reusable technique through which almost any benchmark could fall, and at short notice. I’ll cover all the highlights, benchmarks broken, and what comes next. Plus, the costs OpenAI didn’t want us to know, Genesis, ARC-AGI 2, Gemini-Thinking, and much more.
AI Insiders ($9!):
FrontierMath:
Chollet Statement:
MLC Paper:
AlphaCode 2:
Human Performance on ARC-AGI:
Wei Tweet ‘3 months’:
Deliberative Alignment Paper:
Brown Safety Tweet:
Swe-Bench Verified:
Amodei Prediction:
David Dohan: 16 hours
OpenAI Personal Writing:
John Hallman Tweet:
- Introduction
- What is o3?
- FrontierMath
- o4, o5
- GPQA
- Coding, Codeforces SWE-verified, AlphaCode 2
- 1st Caveat
- Compositionality?
- SimpleBench?
- ARC-AGI, Chollet
- Safety Implicaitons
AI Insiders:
Non-hype Newsletter:
Podcast: