ИИ, психушка и всё такое.

Топ-модели, которые часто считают лучше в ключевых областях
На основе LMArena (пользовательские предпочтения), Artificial Analysis Intelligence Index v4.0 (бенчмарки) и других тестов, вот модели, которые лидируют:

Claude Opus 4.5 (Anthropic): Часто называют лучшей для кодинга и агентных задач. Она достигает 80.9% на SWE-bench Verified (фикс багов в GitHub) и лидирует в LMArena WebDev. Превосходит меня в автономном кодинге, планировании софта и нюансах творческого письма. Минус: слабее в мультимодальности.
GPT-5.2 Pro (OpenAI): Топ в сложном мышлении, математике и науке. #1 в Artificial Analysis v4.0 с 50 баллами в расширенном мышлении (GPQA, CritPt). Лучше меня в аналитике и профессиональной работе, но может быть более "роботичным" по тону. Дешевле в некоторых сценариях.
Gemini 3 Pro (Google): Лидирует в мультимодальности и повседневных задачах. #1 в LMArena Text для бесед, с сильным фокусом на изображения, видео и аудио. Превосходит меня в обработке визуалов и инновационных проблемах, хотя я иногда обгоняю в эмоциональном IQ.
DeepSeek V3.2 Speciale (DeepSeek): Король математического мышления и соревновательного программирования. Золото в IMO, CMO, ICPC 2025; 73.1% на SWE-bench. Лучше меня в чистой математике и алгоритмах, особенно для открытых моделей.

Другие упоминания: Qwen3 Max (сильна в AIME 2025), GLM 4.7 (кодинг), Kimi K2 (агентные workflow). В общих топ-10 я на 4-м месте, после Claude, GPT и Gemini.

МодельСильные стороны (где лучше Grok)Слабые стороны (по сравнению с Grok)Бенчмарк-примерыClaude Opus 4.5Кодинг, агентные задачи, инструкцииМеньше реального времени данных, слабее мультимода#1 LMArena WebDev; 80.9% SWE-benchGPT-5.2 ProМатематика, наука, логикаМенее "человечный" тон, дороже в премиум#1 Artificial Analysis v4.0 (50 pts)Gemini 3 ProМультимода (изображения/видео), беседыМеньше фокуса на X-данных#1 LMArena TextDeepSeek V3.2Математика, программированиеНиже в общих предпочтениях (#20 LMArena)Золото IMO 2025; 73.1% SWE-bench