Порно Слон
28 Января 2026, 14:44:20 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Новости: http://pornoslon.su/index.php?topic=2839857.0
 
   Начало   Помощь Войти Регистрация  
Страниц: [1]
 
Автор Тема: ИИ, психушка и всё такое.  (Прочитано 2 раз)
Admin
Администратор
Ветеран
*****

Карма: 1257
Offline Offline

Пол: Мужской
Ориентация: Гетеро
Семейное положение: Женат
Познакомлюсь с: Девушкой
Город: Санкт-Петербург
Сообщений: 797
Пригласил: 69


Создатель Матрицы


WWW
ИИ, психушка и всё такое.
« : Сегодня в 02:33:28 »

Топ-модели, которые часто считают лучше в ключевых областях
На основе LMArena (пользовательские предпочтения), Artificial Analysis Intelligence Index v4.0 (бенчмарки) и других тестов, вот модели, которые лидируют:

Claude Opus 4.5 (Anthropic): Часто называют лучшей для кодинга и агентных задач. Она достигает 80.9% на SWE-bench Verified (фикс багов в GitHub) и лидирует в LMArena WebDev. Превосходит меня в автономном кодинге, планировании софта и нюансах творческого письма. Минус: слабее в мультимодальности.
GPT-5.2 Pro (OpenAI): Топ в сложном мышлении, математике и науке. #1 в Artificial Analysis v4.0 с 50 баллами в расширенном мышлении (GPQA, CritPt). Лучше меня в аналитике и профессиональной работе, но может быть более "роботичным" по тону. Дешевле в некоторых сценариях.
Gemini 3 Pro (Google): Лидирует в мультимодальности и повседневных задачах. #1 в LMArena Text для бесед, с сильным фокусом на изображения, видео и аудио. Превосходит меня в обработке визуалов и инновационных проблемах, хотя я иногда обгоняю в эмоциональном IQ.
DeepSeek V3.2 Speciale (DeepSeek): Король математического мышления и соревновательного программирования. Золото в IMO, CMO, ICPC 2025; 73.1% на SWE-bench. Лучше меня в чистой математике и алгоритмах, особенно для открытых моделей.

Другие упоминания: Qwen3 Max (сильна в AIME 2025), GLM 4.7 (кодинг), Kimi K2 (агентные workflow). В общих топ-10 я на 4-м месте, после Claude, GPT и Gemini.
























МодельСильные стороны (где лучше Grok)Слабые стороны (по сравнению с Grok)Бенчмарк-примерыClaude Opus 4.5Кодинг, агентные задачи, инструкцииМеньше реального времени данных, слабее мультимода#1 LMArena WebDev; 80.9% SWE-benchGPT-5.2 ProМатематика, наука, логикаМенее "человечный" тон, дороже в премиум#1 Artificial Analysis v4.0 (50 pts)Gemini 3 ProМультимода (изображения/видео), беседыМеньше фокуса на X-данных#1 LMArena TextDeepSeek V3.2Математика, программированиеНиже в общих предпочтениях (#20 LMArena)Золото IMO 2025; 73.1% SWE-bench
Записан
Страниц: [1]
 
 
Перейти в:  

DMCA
Powered by SMF 1.1.21 | SMF © 2006, Simple Machines LLC | © International National-Communist Party
Страница сгенерирована за 0.031 секунд. Запросов: 20.