Архив, который отвечает со ссылкой на страницу.
10 000+ документов — PDF, сканы, DOCX, XLSX, письма — превращаются в audit-grade слой знаний. Каждый ответ LLM ссылается на doc_id, страницу и chunk оригинала. Не «похоже». Конкретный документ, конкретная страница.
- документов · PDF, сканы, DOCX, XLSX
- 10K+
- hybrid search по 100K корпусу
- p95 < 2s
- ответов · citation или no-answer
- 100%
Архив есть. Опереться на него нельзя.
Десятки тысяч документов лежат в файловой системе как чёрный ящик. Поиск идёт по имени файла. Generic-чат-боты галлюцинируют, как только вопрос становится конкретным. Аудиту предъявить нечего.
Архив — чёрный ящик
10 000+ файлов в директориях. Поиск только по имени. OCR разрозненный или отсутствует. Никто не знает, что внутри.
LLM без источников
ChatGPT с документами отвечает уверенно и без ссылок. Проверить нельзя, сослаться нельзя, в compliance-документе не пригодится.
Эксперт не масштабируется
Доменный знаток ищет факт час, потом ещё час сверяет. Его работа теряется при первой переиндексации.
- Поиск по именам файлов
- OCR фрагментарный или его нет
- LLM-ответы без источников
- Экспертная работа теряется
- Hybrid search · p95 < 2s
- OCR с per-page confidence
- Каждый ответ — citation до chunk
- Защищённый экспертный vault
Шесть слоёв. Один контракт доверия.
Stela не «обёртка над vector DB». Это шесть отдельных слоёв с явными контрактами между ними. Оригинал — неизменяемая истина. Markdown — для людей. JSON — для машин. Retrieval — для скорости. Vault — для экспертов. LLM — только для proposal.
Слои изолированы. OCR-движок меняется без касания retrieval. LLM-провайдер меняется без касания vault. Embedding-модель меняется по конфигу, индекс пересобирается контролируемо. Vendor lock-in — архитектурно исключён.
Не «похоже». Doc_id + страница + chunk.
Каждый ответ Stela несёт обязательную citation до уровня фрагмента оригинала. Не «по нашим данным». Не «согласно политике». Конкретный документ, конкретная страница, конкретный chunk — открывается одним кликом.
- doc_id
- Уникальный stable ID документа · ARCH-NNNNNN
- page_number
- Номер страницы оригинала · кликабельно открывает PDF
- chunk_id
- ID фрагмента внутри страницы · b21, c08
Внутри Prova Studio: подключите Stela как knowledge collection в любом RAG-агенте — citation grounding из коробки.
Лимит single-borrower exposure для корпоративных клиентов установлен на уровне 15% от регуляторного капитала042:7. Для связанных групп применяется консолидированный расчёт с минимальным буфером 25%042:11. Превышение требует одобрения комитета по управлению рисками в течение 5 рабочих дней118:3.
Если retrieved context пуст или ниже порога релевантности — Stela возвращает явный «в доступных документах не найдено достаточных подтверждений». Не выдумывает. Не парафразирует пустоту. No-answer — это feature, не bug.
Сканы низкого качества — тоже first-class citizens.
Большая часть корпоративных архивов — сканы. Кривые, пожатые, со штампами, подписями и рукописными правками поверх печатного текста. Pipeline Stela рассчитан на это с первого дня: четыре стадии, per-page confidence, manual review flag на всём, что ниже порога.
OCR-движок vendor-agnostic: Tesseract 5, PaddleOCR, Docling, Azure / AWS / Google Document AI — переключаются через конфиг без изменений downstream.
Эксперт — куратор, а не модератор.
Доменный эксперт работает там, где ему удобно — в Obsidian-совместимом vault, локально или в браузере. Его аннотации не теряются. Его связи переживают любую переиндексацию. Его комментарии — отдельный, защищённый слой над OCR.
Obsidian-совместимый vault
Vault открывается в Obsidian без модификаций. YAML frontmatter, wikilinks, backlinks — нативно. Никакой production-зависимости от Obsidian — это рабочее место, не инфраструктура.
Двусторонняя синхронизация
Правка в vault → sync service → валидация frontmatter → запись в PostgreSQL → incremental reindex затронутых chunks. Цикл занимает минуты, не часы.
Защищённые экспертные секции
Секция «# Экспертные комментарии» никогда не перезаписывается при reprocess. Системные поля frontmatter защищены от случайной модификации.
Wikilinks и история
Связи через [[doc_id]] индексируются как relationships. Каждое изменение — версионируется. Откат любой правки — один клик.
Эксперты курируют знания, а не модерируют систему. Их работа — самостоятельный слой над автоматикой, не редактирование её черновика. Reprocess пересчитывает OCR; курация остаётся неприкосновенной.
Любой ответ — полностью реконструируем.
Compliance-офицер открывает audit-панель, находит сессию по user_id + timestamp — и восстанавливает всё: запрос, retrieved chunks с relevance scores, модель и её версию, prompt, финальный ответ, citations, и были ли у пользователя права на каждый из документов в момент запроса.
Вопрос пользователя, user_id, фильтры, timestamp.
Top-K chunks с doc_id, page, chunk_id, relevance score, source оригинала.
Reranker scores и финальное ранжирование. Видно, что чем било.
LLM provider, версия модели, system prompt, температура, потреблённые токены.
Финальный текст с inline-citations и список источников. Контракт замкнут.
- Полная reconstruction любой сессии
- Version history Markdown и JSON
- Access checks на момент запроса
- Экспорт audit-отчёта · PDF / JSON
- Immutable оригиналы · sha256-verifiable
Внутри Prova Studio, отдельно или через API.
Stela — это слой, не приложение. Поэтому она работает там, где задача: как knowledge collection внутри агента Prova Studio, как самостоятельный продукт под отдельный контракт, или как REST/GraphQL-эндпоинт внутри ваших существующих систем.
Inside Prova Studio
При создании RAG-агента выбираете коллекцию Stela вместо обычной. Citation grounding — из коробки. Один RBAC, один маркетплейс, один audit trail с остальной платформой.
Standalone
Отдельный контракт, отдельный deployment. Свой UI поиска, свой Q&A, своя admin-панель. Подходит, когда архив — самостоятельный проект, а не часть AI-платформы.
API
Embedded в существующие системы: CRM, портал, мобильное приложение, BI. Search, Q&A, citation chain — через bearer-token. API-first архитектура без оговорок.
Glean ищет. ChatGPT галлюцинирует. Stela цитирует.
Поиск без citation — это удобство. Чат с документами без audit trail — это риск. DMS без AI — это хранилище. Stela — единственная категория, где цитата до chunk и vendor-agnostic deployment — не опции, а контракт.
| Glean / Hebbia | ChatGPT + docs | DMS (M-Files) | Stela | |
|---|---|---|---|---|
| Citation до doc_id + page + chunk | — | — | — | ✓ |
| Threshold-based no-answer fallback | — | — | — | ✓ |
| OCR под сканы низкого качества | частично | — | частично | ✓ |
| Защищённый экспертный vault | — | — | — | ✓ |
| Полный audit trail сессии | частично | — | частично | ✓ |
| Vendor-agnostic LLM / OCR / Vector DB | — | — | — | ✓ |
| On-prem deployment | — | — | ✓ | ✓ |
| KZ data residency | — | — | — | ✓ |
Удобный поиск и красивый чат не пройдут аудит. Stela спроектирована, чтобы пройти.
Один архив. Один пилот.
Не миграция всего корпоративного контента. Не платформенный rollout. Один корпус — обычно 500–2 000 документов — превращается в audit-grade слой знаний за 8–12 недель. Дальше архив расширяется по мере доверия.
Citation-mandatory. Vendor-agnostic. On-prem. KZ residency. Один контракт.