KNOW AI · PREMIUM KNOWLEDGE LAYER

Архив, который отвечает со ссылкой на страницу.

10 000+ документов — PDF, сканы, DOCX, XLSX, письма — превращаются в audit-grade слой знаний. Каждый ответ LLM ссылается на doc_id, страницу и chunk оригинала. Не «похоже». Конкретный документ, конкретная страница.

Получить scope пилота Посмотреть архитектуру

глубже по роли

/businessБизнес-пользователь /expertДоменный эксперт /auditorCompliance & аудит

документов · PDF, сканы, DOCX, XLSX: 10K+
hybrid search по 100K корпусу: p95 < 2s
ответов · citation или no-answer: 100%

ARCH-000123:p7ARCH-000123:p11ARCH-000118:p3ARCH-000091:p2ARCH-000204:p14ARCH-000456:p1

Citation-mandatoryOCR-readyOn-premVendor-agnosticKZ residency

stela · livegrounded

documents10 482 docs

chunks indexed387K chunks

citations served3 sources · 2.1s

/01/01 · BLACK BOX

Архив есть. Опереться на него нельзя.

Десятки тысяч документов лежат в файловой системе как чёрный ящик. Поиск идёт по имени файла. Generic-чат-боты галлюцинируют, как только вопрос становится конкретным. Аудиту предъявить нечего.

01 · проблема

Архив — чёрный ящик

10 000+ файлов в директориях. Поиск только по имени. OCR разрозненный или отсутствует. Никто не знает, что внутри.

02 · проблема

LLM без источников

ChatGPT с документами отвечает уверенно и без ссылок. Проверить нельзя, сослаться нельзя, в compliance-документе не пригодится.

03 · проблема

Эксперт не масштабируется

Доменный знаток ищет факт час, потом ещё час сверяет. Его работа теряется при первой переиндексации.

сегодня

Архив-чёрный-ящик

Поиск по именам файлов
OCR фрагментарный или его нет
LLM-ответы без источников
Экспертная работа теряется

со stela

Audit-grade слой знаний

Hybrid search · p95 < 2s
OCR с per-page confidence
Каждый ответ — citation до chunk
Защищённый экспертный vault

/02/02 · АРХИТЕКТУРА

Шесть слоёв. Один контракт доверия.

Stela не «обёртка над vector DB». Это шесть отдельных слоёв с явными контрактами между ними. Оригинал — неизменяемая истина. Markdown — для людей. JSON — для машин. Retrieval — для скорости. Vault — для экспертов. LLM — только для proposal.

Слои изолированы. OCR-движок меняется без касания retrieval. LLM-провайдер меняется без касания vault. Embedding-модель меняется по конфигу, индекс пересобирается контролируемо. Vendor lock-in — архитектурно исключён.

stela · 01 · source of truthimmutable

ARCH-000124.pdfa3f9·b21c·44ee🔒

ARCH-000125.pdf1f08·c3b5·8d12🔒

ARCH-000126.pdf44ee·90d7·e74a🔒

ARCH-000127.pdfb21c·a3f9·90d7🔒

stela · 02 · markdownhuman

---
doc_id: ARCH-000124
language: ru
ocr_quality_score: 0.94
---

# Credit Risk Policy

## Page 7

Single-borrower exposure для корпоративных клиентов
не должен превышать 15% от регуляторного капитала...

/03/03 · CITATION CHAIN

Не «похоже». Doc_id + страница + chunk.

Каждый ответ Stela несёт обязательную citation до уровня фрагмента оригинала. Не «по нашим данным». Не «согласно политике». Конкретный документ, конкретная страница, конкретный chunk — открывается одним кликом.

citation schema

citation := { doc_id, page_number, chunk_id }

doc_id: Уникальный stable ID документа · ARCH-NNNNNN
page_number: Номер страницы оригинала · кликабельно открывает PDF
chunk_id: ID фрагмента внутри страницы · b21, c08

connects to prova studio

Внутри Prova Studio: подключите Stela как knowledge collection в любом RAG-агенте — citation grounding из коробки.

stela · searchgrounded

Какие лимиты на single-borrower exposure по политике 2026?↵ run

answer · citation-bound3 sources · 2.1s

Лимит single-borrower exposure для корпоративных клиентов установлен на уровне 15% от регуляторного капитала042:7. Для связанных групп применяется консолидированный расчёт с минимальным буфером 25%042:11. Превышение требует одобрения комитета по управлению рисками в течение 5 рабочих дней118:3.

thresholdКонтракт, а не настройка.

Если retrieved context пуст или ниже порога релевантности — Stela возвращает явный «в доступных документах не найдено достаточных подтверждений». Не выдумывает. Не парафразирует пустоту. No-answer — это feature, не bug.

Полнота

Ответ не существует без минимум одной citation. Если ссылку нельзя построить — система возвращает no-answer.

Актуальность

Citation указывает на версию chunk на момент запроса. Версионность хранится — старые ответы воспроизводимы.

Проверяемость

Из ответа в один клик открывается PDF на нужной странице. Аудитор не доверяет — аудитор проверяет.

/04/04 · INGESTION

Сканы низкого качества — тоже first-class citizens.

Большая часть корпоративных архивов — сканы. Кривые, пожатые, со штампами, подписями и рукописными правками поверх печатного текста. Pipeline Stela рассчитан на это с первого дня: четыре стадии, per-page confidence, manual review flag на всём, что ниже порога.

PDFDOCXXLSXscansimagesemails

ingestion · pipelineARCH-000124.pdf

011.00

Format detection

PDF с текстом / PDF-скан / DOCX / XLSX / изображение / EML. Дубликаты по sha256 и перцептивному hash отсеиваются до OCR.

020.94

OCR

Per-page confidence. Multi-language (ru / en / kk). Страница ниже порога → ocr_status: needs_review и в очередь экспертам.

030.96

Layout parsing

Блоки header / paragraph / table / list / signature / stamp с bbox-координатами. Таблицы извлекаются отдельно — Markdown table или CSV-artifact.

040.89

Entity extraction

Organizations, persons, dates, money, locations. Привязка к doc_id + page с confidence. Питает knowledge graph и metadata filters.

enginepaddleocr · v2.7

layout12 blocks

chunks47

embeddingbge-m3

vendor-agnostic

OCR-движок vendor-agnostic: Tesseract 5, PaddleOCR, Docling, Azure / AWS / Google Document AI — переключаются через конфиг без изменений downstream.

/05/05 · EXPERT CURATION

Эксперт — куратор, а не модератор.

Доменный эксперт работает там, где ему удобно — в Obsidian-совместимом vault, локально или в браузере. Его аннотации не теряются. Его связи переживают любую переиндексацию. Его комментарии — отдельный, защищённый слой над OCR.

/01

Obsidian-совместимый vault

Vault открывается в Obsidian без модификаций. YAML frontmatter, wikilinks, backlinks — нативно. Никакой production-зависимости от Obsidian — это рабочее место, не инфраструктура.

/02

Двусторонняя синхронизация

Правка в vault → sync service → валидация frontmatter → запись в PostgreSQL → incremental reindex затронутых chunks. Цикл занимает минуты, не часы.

/03

Защищённые экспертные секции

Секция «# Экспертные комментарии» никогда не перезаписывается при reprocess. Системные поля frontmatter защищены от случайной модификации.

/04

Wikilinks и история

Связи через [[doc_id]] индексируются как relationships. Каждое изменение — версионируется. Откат любой правки — один клик.

obsidian · ARCH-000124.mdsynced 2s ago

vault

originals/

markdown/

vault/

ARCH-000124.md

---

doc_id:ARCH-000124🔒

source_file:originals/ARCH-000124.pdf🔒

ocr_quality_score:0.94🔒

language:ru

document_type:policy

---

## Паспорт документа

Credit Risk Policy · v2026.1 · NB KZ

## OCR-текст · Page 7

Single-borrower exposure для корпоративных клиентов не должен превышать 15% от регуляторного капитала. См. также [[ARCH-000456]] о консолидированном расчёте для связанных групп.

# Экспертные комментарииprotected · expert-only

Этот регламент применяется в редакции 2026 года. Комитет принял решение применять буфер 25% даже для групп с консолидированным контролем менее 50%. См. протокол [[ARCH-000456]].

philosophy

Эксперты курируют знания, а не модерируют систему. Их работа — самостоятельный слой над автоматикой, не редактирование её черновика. Reprocess пересчитывает OCR; курация остаётся неприкосновенной.

/06/06 · AUDIT TRAIL

Любой ответ — полностью реконструируем.

Compliance-офицер открывает audit-панель, находит сессию по user_id + timestamp — и восстанавливает всё: запрос, retrieved chunks с relevance scores, модель и её версию, prompt, финальный ответ, citations, и были ли у пользователя права на каждый из документов в момент запроса.

session · 2026-05-28analyst@bank.kz

0109:14:02

Query09:14:02

Вопрос пользователя, user_id, фильтры, timestamp.

0209:14:02

Retrieved09:14:02

Top-K chunks с doc_id, page, chunk_id, relevance score, source оригинала.

ARCH-000042:b210.91✓ granted

ARCH-000042:c080.87✓ granted

ARCH-000118:a040.81✓ granted

ARCH-000204:d120.78✕ filtered · confidential

0309:14:03

Ranked09:14:03

Reranker scores и финальное ранжирование. Видно, что чем било.

0409:14:04

Answered09:14:04

LLM provider, версия модели, system prompt, температура, потреблённые токены.

modelclaude-3.5-sonnet

versionv20250114

prompt1 432 tokens

completion287 tokens

0509:14:05

Cited09:14:05

Финальный текст с inline-citations и список источников. Контракт замкнут.

proof receiptsha256 · a3f9·b21c·44ee·90d7

compliance contract

Полная reconstruction любой сессии
Version history Markdown и JSON
Access checks на момент запроса
Экспорт audit-отчёта · PDF / JSON
Immutable оригиналы · sha256-verifiable

/07/07 · ИНТЕГРАЦИЯ

Внутри Prova Studio, отдельно или через API.

Stela — это слой, не приложение. Поэтому она работает там, где задача: как knowledge collection внутри агента Prova Studio, как самостоятельный продукт под отдельный контракт, или как REST/GraphQL-эндпоинт внутри ваших существующих систем.

Knowledge collection

Inside Prova Studio

При создании RAG-агента выбираете коллекцию Stela вместо обычной. Citation grounding — из коробки. Один RBAC, один маркетплейс, один audit trail с остальной платформой.

explore

Отдельный продукт

Standalone

Отдельный контракт, отдельный deployment. Свой UI поиска, свой Q&A, своя admin-панель. Подходит, когда архив — самостоятельный проект, а не часть AI-платформы.

explore

REST / GraphQL

API

Embedded в существующие системы: CRM, портал, мобильное приложение, BI. Search, Q&A, citation chain — через bearer-token. API-first архитектура без оговорок.

explore

/08/08 · СРАВНЕНИЕ

Glean ищет. ChatGPT галлюцинирует. Stela цитирует.

Поиск без citation — это удобство. Чат с документами без audit trail — это риск. DMS без AI — это хранилище. Stela — единственная категория, где цитата до chunk и vendor-agnostic deployment — не опции, а контракт.

	Glean / Hebbia	ChatGPT + docs	DMS (M-Files)	Stela
Citation до doc_id + page + chunk	—	—	—	✓
Threshold-based no-answer fallback	—	—	—	✓
OCR под сканы низкого качества	частично	—	частично	✓
Защищённый экспертный vault	—	—	—	✓
Полный audit trail сессии	частично	—	частично	✓
Vendor-agnostic LLM / OCR / Vector DB	—	—	—	✓
On-prem deployment	—	—	✓	✓
KZ data residency	—	—	—	✓

Удобный поиск и красивый чат не пройдут аудит. Stela спроектирована, чтобы пройти.

REQUEST A PILOT

Один архив. Один пилот.

Не миграция всего корпоративного контента. Не платформенный rollout. Один корпус — обычно 500–2 000 документов — превращается в audit-grade слой знаний за 8–12 недель. Дальше архив расширяется по мере доверия.

step 01

Discovery & sample docs

30-минутный звонок: задача, аудитория, sample-корпус 50–200 документов.

step 02

Ingestion + verification

OCR, layout, metadata, индекс. Эксперт верифицирует sample. Метрики OCR и retrieval — на стол.

step 03

Pilot Q&A в проде

Citation-bound Q&A на вашем корпусе, ваши пользователи, ваши данные, ваш аудит — за 8–12 недель.

Запросить демо Stela Связанные продукты

Citation-mandatory. Vendor-agnostic. On-prem. KZ residency. Один контракт.

Связанные продукты

Архив, который отвечает со ссылкой на страницу.

Архив есть. Опереться на него нельзя.

Архив — чёрный ящик

LLM без источников

Эксперт не масштабируется

Шесть слоёв. Один контракт доверия.

Не «похоже». Doc_id + страница + chunk.

Сканы низкого качества — тоже first-class citizens.

Эксперт — куратор, а не модератор.

Obsidian-совместимый vault

Двусторонняя синхронизация

Защищённые экспертные секции

Wikilinks и история

Любой ответ — полностью реконструируем.

Внутри Prova Studio, отдельно или через API.

Inside Prova Studio

Standalone

API

Glean ищет. ChatGPT галлюцинирует. Stela цитирует.

Один архив. Один пилот.

Prova Studio

Provis

Платформа