Я собрал датасет метаданных по ~40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и др. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT. Ниже — как скачать, что внутри и идеи использования.Датасет: ibragim-bad/github-repos-metadata-40M Читать далее
В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось, можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд…
Кто угодно может получать доступ к данным из удалённых форков, удалённых репозиториев и даже приватных репозиториев GitHub. И эти данные доступны всегда. Это известно разработчикам GitHub, и они намеренно спроектировали систему таким образом. Это настолько огромный вектор атак для…
Кроме огромных репозиториев с источниками для подготовки к интервью, здесь много чего интересного Я собрал список из десяти отличных репозиториев на Github, которые помогут вам существенно расширить свои знания. А я его перевел, т.к. показалось, что пост многим будет интересен.…