| |||
![]()
|
![]() ![]() |
![]()
Doom — русский физмат бенчмарк ![]() Всем привет! Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском. Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском? У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.
Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском: Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно Читать далее |
||||||||||||||
![]() |
![]() |