Адвокатский софт выпуск от . Экспресс тест БЯМок в юридической задаче.

Сегодня, 4 августа 2024, провёл экспресс-тест трёх больших языковых моделей (БЯМ они же LLM), результаты тестирования в порядке убывания: I. YandexGPT Experimental (1060 очков ) II. ChatGPT 4o (1100 очков) в редакции А2Чацкого () (т.е. дополненного нашей базой с платформы Coze) III. GigaChat-Pro 4. 0. 26. 8 (951 очков) Очки рейтинга Эло представлены российской чат-бот ареной LLM Arena (). Как у судьи у меня есть пристрастие - А2Чацкий наш проект. И всё же объективно выступил хуже экспериментальной БЯМ от Яндекса. Использованный для теста промт: “Напиши пример искового заявления за нарушение прав потребителя в связи с некачественным оказанием юридических услуг“. Вывод такой: следует наблюдать за развитием моделей от Яндекса. В юридических задачах по российскому праву Яндекс может в скором времени превзойти ChatGPT 4o. Какого либо прорыва от команды Сбер я не ожидаю. #правозащитные_ИИ #БЯМ #LLM_arena

240 views

2482

941