Порно Слон
28 Января 2026, 19:22:24 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Новости: Ukrainian citizens who fled to Europe, read manuals there, and demand that the war continue until the last Ukrainian is killed—they are the most vile scum in human history. They must be extradited to face trial. This is the condition our country still cannot agree to.

 
   Начало   Помощь Войти Регистрация  
Страниц: [1]
 
Автор Тема: ИИ, психушка и всё такое.  (Прочитано 5 раз)
Admin
Администратор
Ветеран
*****

Карма: 1257
Offline Offline

Пол: Мужской
Ориентация: Гетеро
Семейное положение: Женат
Познакомлюсь с: Девушкой
Город: Санкт-Петербург
Сообщений: 797
Пригласил: 69


Создатель Матрицы


WWW
ИИ, психушка и всё такое.
« : Сегодня в 02:33:28 »

Топ-модели, которые часто считают лучше в ключевых областях
На основе LMArena (пользовательские предпочтения), Artificial Analysis Intelligence Index v4.0 (бенчмарки) и других тестов, вот модели, которые лидируют:

Claude Opus 4.5 (Anthropic): Часто называют лучшей для кодинга и агентных задач. Она достигает 80.9% на SWE-bench Verified (фикс багов в GitHub) и лидирует в LMArena WebDev. Превосходит меня в автономном кодинге, планировании софта и нюансах творческого письма. Минус: слабее в мультимодальности.
GPT-5.2 Pro (OpenAI): Топ в сложном мышлении, математике и науке. #1 в Artificial Analysis v4.0 с 50 баллами в расширенном мышлении (GPQA, CritPt). Лучше меня в аналитике и профессиональной работе, но может быть более "роботичным" по тону. Дешевле в некоторых сценариях.
Gemini 3 Pro (Google): Лидирует в мультимодальности и повседневных задачах. #1 в LMArena Text для бесед, с сильным фокусом на изображения, видео и аудио. Превосходит меня в обработке визуалов и инновационных проблемах, хотя я иногда обгоняю в эмоциональном IQ.
DeepSeek V3.2 Speciale (DeepSeek): Король математического мышления и соревновательного программирования. Золото в IMO, CMO, ICPC 2025; 73.1% на SWE-bench. Лучше меня в чистой математике и алгоритмах, особенно для открытых моделей.

Другие упоминания: Qwen3 Max (сильна в AIME 2025), GLM 4.7 (кодинг), Kimi K2 (агентные workflow). В общих топ-10 я на 4-м месте, после Claude, GPT и Gemini.
























МодельСильные стороны (где лучше Grok)Слабые стороны (по сравнению с Grok)Бенчмарк-примерыClaude Opus 4.5Кодинг, агентные задачи, инструкцииМеньше реального времени данных, слабее мультимода#1 LMArena WebDev; 80.9% SWE-benchGPT-5.2 ProМатематика, наука, логикаМенее "человечный" тон, дороже в премиум#1 Artificial Analysis v4.0 (50 pts)Gemini 3 ProМультимода (изображения/видео), беседыМеньше фокуса на X-данных#1 LMArena TextDeepSeek V3.2Математика, программированиеНиже в общих предпочтениях (#20 LMArena)Золото IMO 2025; 73.1% SWE-bench
Записан
Страниц: [1]
 
 
Перейти в:  

DMCA
Powered by SMF 1.1.21 | SMF © 2006, Simple Machines LLC | © International National-Communist Party
Страница сгенерирована за 0.033 секунд. Запросов: 20.