Компания Google и стартап Character.ai объявили о сотрудничестве. В рамках достигнутых соглашений Google получит неэксклюзивные права на технологии больших языковых моделей Character.ai, а исполнительный директор стартапа Ноам Шазир и второй сооснователь Даниэль Де Фрейтас начнут работать в подразделении DeepMind. Сама Character.ai собирается поробовать перейти на дообучение открытых моделей. Читать далее
Предлагается пошаговое руководство по дообучению Whisper для любого многоязычного набора данных ASR с использованием Hugging Face ???? Transformers. Эта заметка содержит подробные объяснения модели Whisper, набора данных Common Voice и теории дообучения, а также код для выполнения шагов по подготовке данных и дообучению. Для более упрощенной версии с меньшим количеством объяснений, но со всем кодом, см. соответствующий Google Colab. Читать далее
detect-character-encoding is an open source character encoding inspection library. In detect-character-encoding v0.6.0 and earlier, data matching no charset causes the Node.js process to crash. The problem has been patched in [detect-character-encoding v0.7.0](https://github.com/sonicdoe/detect-character-encoding/releases/tag/v0.7.0). No workaround are available and all users should update to resolve this issue.
В старом посте на Хабре «Самый краткий линк от Гугл» (июль 2011 года) рассказывалось о том, что Google купила домен g.co для запуска сервиса сокращения ссылок. В комментариях остроумно шутили, что пора Гуглу уже купить свой TLD, купив какое-нибудь государство. В итоге, Google купила для себя домен, а также создала регистратора. Читать дальше →