???? О чём эта статья: В этой статье я разбираю, как с помощью библиотеки Unsloth обучить LLM и ускорить её обучение с LoRA/DoRA-адаптерами. Я также провёл серию экспериментов на данных по МКБ-10, сравнил качество моделей и описал тонкости экспорта в GGUF. Читать далее
Разработчикам приложений Generative AI стоит обратить внимание на новую коллекцию моделей Qwen 2.5 и Qwen 2.5 Coder. С сентября 2024 года эти модели привлекают внимание разработчиков благодаря своей эффективности.Эти модели созданы Alibaba Cloud и предлагают много полезных для AI-сообщества функций.…
Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые
Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLMМетод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока…