В самом сердце информационно-поисковых систем Meltwater и Fairhair.ai работает набор кластеров Elasticsearch с миллиардами статей из СМИ и социальных медиа. Индексные шарды в кластерах сильно отличаются по структуре доступа, рабочей нагрузке и размеру, что поднимает некоторые очень…
Каждый индекс Elasticsearch состоит из шардов. Шарды — это логическое и физическое разделение индекса. В этой статье мы расскажем о сайзинге шардов Elasticsearch — важной его части, серьёзно влияющей на производительность кластера. В высоконагруженных системах выбор правильной конфигурации архитектуры хранения позволит серьёзно сэкономить на железе. Бóльшая часть статьи основана на соответствующем разделе документации Elastic. Подробности под катом. Читать дальше →
Нахождение медианы списка может казаться тривиальной задачей, но её выполнение за линейное время требует серьёзного подхода. В этом посте я расскажу об одном из самых любимых мной алгоритмов — нахождении медианы списка за детерминированное линейное время с помощью медианы медиан. Хотя доказательство того, что этот алгоритм выполняется за линейное время, довольно сложно, сам пост будет понятен и читателям с начальным уровнем знаний об анализе алгоритмов. Читать дальше →
"Размышления без практики приводят к заблуждению, практика без размышления приводит к затруднению." Мы ведём войну с индивидуальностью у шардов в кластере MongoDB. Это продолжение статьи Шардинг от которого невозможно отказаться, а это значит, что наступила пора конкретики. Как я и обещал, здесь мы рассмотрим подробнее: настройку процесса выравнивания размера шардов расчет поправок для коррекции границ мониторинг распределения данных в коллекциях Читать дальше →