В своём последнем посте я говорил об одной загадке: все большие языковые модели (LLM) ужасно играют в шахматы. Все, за исключением gpt-3.5-turbo-instruct, которая по какой-то причине умеет играть на уровне продвинутого любителя. И это несмотря на то, что этой модели больше года и она намного…
Так какими же всё таки должны быть идеальные шахматы?Как уже принято на хабре, увидел статью «Какими могут быть идеальные шахматы», хотел написать комментарий, но понял, что многовато получается и решил написать статью.Чтобы понять какими могут быть идеальные шахматы, нужно…
Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые
Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не…