Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Все статьи подряд / Математика / Хабр ([info]syn_habr_maths)
@ 2025-05-05 07:49:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Doom — русский физмат бенчмарк

Всем привет! 

Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском.

Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском?

 У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.


Изначально была идея собрать еще бенчмарк поверх Демидовича, но реализовать точную сравнивалку ответов  оказалось сложнее ожидаемого - llm ломаются, ast часто лажают на вариантах когда ответ очень сложный, но в конце концов бросили. Возможно сообщество доделает начатую работу. - 

   

Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском:

Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно

Читать далее


(Читать комментарии) (Добавить комментарий)