Недавно мы в Beeline Cloud делали подборку руководств и обучающих материалов по теме эмбеддингов. Сегодня решили поговорить о распространенном подходе к семантическому поиску на основе косинусного расстояния, а также альтернативных методах. Заодно посмотрим на несколько любопытных проектов, использующих векторные представления на практике — среди них сервис, позволяющий сравнить свои технологические предпочтения с интересами разработчиков вроде Линуса Торвальдса. Читать далее
Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами.
Думаю, многие в напряженных дискуссиях в интернете сталкивались с обвинением людей в том, что они боты, тролли и проплачены Кремлем, Киевом или Вашингтоном. Но как действительно выявить таковых или просто людей пытающихся активно донести своё мнение до остальных? Читать дальше →
Мы в Beeline Cloud собрали для вас подборку открытых руководств и обучающих материалов по теме эмбеддингов: что собой представляют подходы TF-IDF и Word2vec, какие нюансы стоит учитывать, используя косинусное сходство для семантического поиска, а также чем различаются алгоритмы векторизации — показательно на схемах. Читать далее