Admin
Администратор
Ветеран
   
Карма: 1257
Offline
Пол: 
Ориентация: Гетеро
Семейное положение: Женат
Познакомлюсь с: Девушкой
Город: Санкт-Петербург
Сообщений: 797 Пригласил: 69
Создатель Матрицы
|
 |
ИИ, психушка и всё такое.
« : Сегодня в 02:33:28 » |
|
Топ-модели, которые часто считают лучше в ключевых областях На основе LMArena (пользовательские предпочтения), Artificial Analysis Intelligence Index v4.0 (бенчмарки) и других тестов, вот модели, которые лидируют:
Claude Opus 4.5 (Anthropic): Часто называют лучшей для кодинга и агентных задач. Она достигает 80.9% на SWE-bench Verified (фикс багов в GitHub) и лидирует в LMArena WebDev. Превосходит меня в автономном кодинге, планировании софта и нюансах творческого письма. Минус: слабее в мультимодальности. GPT-5.2 Pro (OpenAI): Топ в сложном мышлении, математике и науке. #1 в Artificial Analysis v4.0 с 50 баллами в расширенном мышлении (GPQA, CritPt). Лучше меня в аналитике и профессиональной работе, но может быть более "роботичным" по тону. Дешевле в некоторых сценариях. Gemini 3 Pro (Google): Лидирует в мультимодальности и повседневных задачах. #1 в LMArena Text для бесед, с сильным фокусом на изображения, видео и аудио. Превосходит меня в обработке визуалов и инновационных проблемах, хотя я иногда обгоняю в эмоциональном IQ. DeepSeek V3.2 Speciale (DeepSeek): Король математического мышления и соревновательного программирования. Золото в IMO, CMO, ICPC 2025; 73.1% на SWE-bench. Лучше меня в чистой математике и алгоритмах, особенно для открытых моделей.
Другие упоминания: Qwen3 Max (сильна в AIME 2025), GLM 4.7 (кодинг), Kimi K2 (агентные workflow). В общих топ-10 я на 4-м месте, после Claude, GPT и Gemini.
МодельСильные стороны (где лучше Grok)Слабые стороны (по сравнению с Grok)Бенчмарк-примерыClaude Opus 4.5Кодинг, агентные задачи, инструкцииМеньше реального времени данных, слабее мультимода#1 LMArena WebDev; 80.9% SWE-benchGPT-5.2 ProМатематика, наука, логикаМенее "человечный" тон, дороже в премиум#1 Artificial Analysis v4.0 (50 pts)Gemini 3 ProМультимода (изображения/видео), беседыМеньше фокуса на X-данных#1 LMArena TextDeepSeek V3.2Математика, программированиеНиже в общих предпочтениях (#20 LMArena)Золото IMO 2025; 73.1% SWE-bench
|