DataHub v1.4.0: что нового
Обзор релиза DataHub v1.4.0 — что важного, что сломали, стоит ли обновляться
Вышел DataHub 1.4.0. Там есть несколько вещей, за которые скажешь «спасибо», и одна, из-за которой админы вздохнут, но потом всё равно захотят её попробовать.
Что важного
Главный хайп — это «Контекстные документы». Теперь можно тащить в DataHub мануалы из Notion и Confluence, создавать их прямо внутри и потом семантически искать по всей этой куче. Звучит как магия, но за магию нужно платить: фича требует нетривиальной админской конфигурации через DataHub MCP Server. Без этого — просто красивая кнопка в интерфейсе.
Интерфейс стал заметно взрослее. Новый пошаговый мастер создания источников ingestion — это долгожданное облегчение. Появилась вкладка «Summary» на профилях сущностей, которая собирает ключевые метрики в одном месте, и это действительно полезно. А старый домашний экран официально отправляется на пенсию — новый модульный включён по умолчанию.
Под капотом — серьёзное обновление инфраструктуры. Полная поддержка Elasticsearch 8, миграция Python SDK на Pydantic v2 и, что важнее, новый Java SDK V2 с fluent API. Для тех, кто пишет кастомные пайплайны, это большая разница. Из коннекторов добавили Google Dataplex, Azure Data Factory и, что логично, Notion с Confluence. Поддержка Airflow 3.x тоже порадует.
Обновляться или подождать
Если вам критически нужен семантический поиск по документам — берите сразу v1.4.0.3, там пофиксили конфигурацию. Остальным можно спокойно накатывать 1.4.0, явных подводных камней в релизных нотах нет. Но с новыми AI-фичами, как обычно, готовьтесь к ручной настройке.