Sep. 2nd, 2023

Тут люди кинулись мірятись ШІ на задачі генерації коду.

І дуже оригінальний бенчмарк HumanEval - там для перевірки використовують юніт-тести, нарешті!

Шкода тільки що мало тестових тасків.

Ну звісно, GPT-4 навіть на стандартній базі вражає, аж 68%, а на тюненій аж 86%.

Тюнена ЛЛама2 дає до 48%.

Але якщо взяти загальнодоступну ЛЛама2, яку можна скачати, там біля 30%, але відчуйте різницю, цю штуку вже можна просто покласти в кишеню і використовувати без інтернету, а на GPT-4 треба ресурси величезні мати.

Зараз трошки почекати, я думаю ентузіасти зроблять оптимізовану опенсорц модель.

І ще, ходят чутки, що воно не заточене на Пітон, а набагато кращі результати демонструє на Javascript, Java.

Profile

zyxman

December 2023

S M T W T F S
     12
3456789
10111213141516
1718 1920212223
24252627282930
31      

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 4th, 2025 08:02 am
Powered by Dreamwidth Studios