Все новости

Хабр6 дней назад

Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения)

Тестирование современных LLM моделей проводится с помощью стандартных бенчмарков, которые оценивают математические способности, программирование, понимание текста или умение строить логические выводы. Однако эти тесты слабо отражают умение моделей вести переговоры, адаптироваться к ситуации и выстраивать социальные взаимодействия. Давайте выйдет за рамки сухих метрик и поместим нейросети в…

ИИ #ChatGPT #искусственный интеллект #LLM #Gemini