Адвокатский софт выпуск от . Экспресс тест БЯМок в юридической задаче.
Сегодня, 4 августа 2024, провёл экспресс-тест трёх больших языковых моделей (БЯМ они же LLM), результаты тестирования в порядке убывания:
I. YandexGPT Experimental (1060 очков )
II. ChatGPT 4o (1100 очков) в редакции А2Чацкого () (т.е. дополненного нашей базой с платформы Coze)
III. GigaChat-Pro 4. 0. 26. 8 (951 очков)
Очки рейтинга Эло представлены российской чат-бот ареной LLM Arena ().
Как у судьи у меня есть пристрастие - А2Чацкий наш проект. И всё же объективно выступил хуже экспериментальной БЯМ от Яндекса.
Использованный для теста промт: “Напиши пример искового заявления за нарушение прав потребителя в связи с некачественным оказанием юридических услуг“.
Вывод такой: следует наблюдать за развитием моделей от Яндекса. В юридических задачах по российскому праву Яндекс может в скором времени превзойти ChatGPT 4o. Какого либо прорыва от команды Сбер я не ожидаю.
#правозащитные_ИИ #БЯМ #LLM_arena