← На главную
KNOW AI · PREMIUM KNOWLEDGE LAYER

Архив, который отвечает со ссылкой на страницу.

10 000+ документов — PDF, сканы, DOCX, XLSX, письма — превращаются в audit-grade слой знаний. Каждый ответ LLM ссылается на doc_id, страницу и chunk оригинала. Не «похоже». Конкретный документ, конкретная страница.

документов · PDF, сканы, DOCX, XLSX
10K+
hybrid search по 100K корпусу
p95 < 2s
ответов · citation или no-answer
100%
/01/01 · BLACK BOX

Архив есть. Опереться на него нельзя.

Десятки тысяч документов лежат в файловой системе как чёрный ящик. Поиск идёт по имени файла. Generic-чат-боты галлюцинируют, как только вопрос становится конкретным. Аудиту предъявить нечего.

01 · проблема

Архив — чёрный ящик

10 000+ файлов в директориях. Поиск только по имени. OCR разрозненный или отсутствует. Никто не знает, что внутри.

02 · проблема

LLM без источников

ChatGPT с документами отвечает уверенно и без ссылок. Проверить нельзя, сослаться нельзя, в compliance-документе не пригодится.

03 · проблема

Эксперт не масштабируется

Доменный знаток ищет факт час, потом ещё час сверяет. Его работа теряется при первой переиндексации.

сегодня
Архив-чёрный-ящик
  • Поиск по именам файлов
  • OCR фрагментарный или его нет
  • LLM-ответы без источников
  • Экспертная работа теряется
со stela
Audit-grade слой знаний
  • Hybrid search · p95 < 2s
  • OCR с per-page confidence
  • Каждый ответ — citation до chunk
  • Защищённый экспертный vault
/02/02 · АРХИТЕКТУРА

Шесть слоёв. Один контракт доверия.

Stela не «обёртка над vector DB». Это шесть отдельных слоёв с явными контрактами между ними. Оригинал — неизменяемая истина. Markdown — для людей. JSON — для машин. Retrieval — для скорости. Vault — для экспертов. LLM — только для proposal.

Слои изолированы. OCR-движок меняется без касания retrieval. LLM-провайдер меняется без касания vault. Embedding-модель меняется по конфигу, индекс пересобирается контролируемо. Vendor lock-in — архитектурно исключён.

stela · 01 · source of truthimmutable
ARCH-000124.pdfa3f9·b21c·44ee🔒
ARCH-000125.pdf1f08·c3b5·8d12🔒
ARCH-000126.pdf44ee·90d7·e74a🔒
ARCH-000127.pdfb21c·a3f9·90d7🔒
/03/03 · CITATION CHAIN

Не «похоже». Doc_id + страница + chunk.

Каждый ответ Stela несёт обязательную citation до уровня фрагмента оригинала. Не «по нашим данным». Не «согласно политике». Конкретный документ, конкретная страница, конкретный chunk — открывается одним кликом.

citation schema
citation := { doc_id, page_number, chunk_id }
doc_id
Уникальный stable ID документа · ARCH-NNNNNN
page_number
Номер страницы оригинала · кликабельно открывает PDF
chunk_id
ID фрагмента внутри страницы · b21, c08
connects to prova studio

Внутри Prova Studio: подключите Stela как knowledge collection в любом RAG-агенте — citation grounding из коробки.

stela · searchgrounded
Какие лимиты на single-borrower exposure по политике 2026?↵ run
answer · citation-bound3 sources · 2.1s

Лимит single-borrower exposure для корпоративных клиентов установлен на уровне 15% от регуляторного капитала042:7. Для связанных групп применяется консолидированный расчёт с минимальным буфером 25%042:11. Превышение требует одобрения комитета по управлению рисками в течение 5 рабочих дней118:3.

thresholdКонтракт, а не настройка.

Если retrieved context пуст или ниже порога релевантности — Stela возвращает явный «в доступных документах не найдено достаточных подтверждений». Не выдумывает. Не парафразирует пустоту. No-answer — это feature, не bug.

Полнота
Ответ не существует без минимум одной citation. Если ссылку нельзя построить — система возвращает no-answer.
Актуальность
Citation указывает на версию chunk на момент запроса. Версионность хранится — старые ответы воспроизводимы.
Проверяемость
Из ответа в один клик открывается PDF на нужной странице. Аудитор не доверяет — аудитор проверяет.
/04/04 · INGESTION

Сканы низкого качества — тоже first-class citizens.

Большая часть корпоративных архивов — сканы. Кривые, пожатые, со штампами, подписями и рукописными правками поверх печатного текста. Pipeline Stela рассчитан на это с первого дня: четыре стадии, per-page confidence, manual review flag на всём, что ниже порога.

PDFDOCXXLSXscansimagesemails
ingestion · pipelineARCH-000124.pdf
011.00
Format detection
PDF с текстом / PDF-скан / DOCX / XLSX / изображение / EML. Дубликаты по sha256 и перцептивному hash отсеиваются до OCR.
020.94
OCR
Per-page confidence. Multi-language (ru / en / kk). Страница ниже порога → ocr_status: needs_review и в очередь экспертам.
030.96
Layout parsing
Блоки header / paragraph / table / list / signature / stamp с bbox-координатами. Таблицы извлекаются отдельно — Markdown table или CSV-artifact.
040.89
Entity extraction
Organizations, persons, dates, money, locations. Привязка к doc_id + page с confidence. Питает knowledge graph и metadata filters.
enginepaddleocr · v2.7
layout12 blocks
chunks47
embeddingbge-m3
vendor-agnostic

OCR-движок vendor-agnostic: Tesseract 5, PaddleOCR, Docling, Azure / AWS / Google Document AI — переключаются через конфиг без изменений downstream.

/05/05 · EXPERT CURATION

Эксперт — куратор, а не модератор.

Доменный эксперт работает там, где ему удобно — в Obsidian-совместимом vault, локально или в браузере. Его аннотации не теряются. Его связи переживают любую переиндексацию. Его комментарии — отдельный, защищённый слой над OCR.

/01

Obsidian-совместимый vault

Vault открывается в Obsidian без модификаций. YAML frontmatter, wikilinks, backlinks — нативно. Никакой production-зависимости от Obsidian — это рабочее место, не инфраструктура.

/02

Двусторонняя синхронизация

Правка в vault → sync service → валидация frontmatter → запись в PostgreSQL → incremental reindex затронутых chunks. Цикл занимает минуты, не часы.

/03

Защищённые экспертные секции

Секция «# Экспертные комментарии» никогда не перезаписывается при reprocess. Системные поля frontmatter защищены от случайной модификации.

/04

Wikilinks и история

Связи через [[doc_id]] индексируются как relationships. Каждое изменение — версионируется. Откат любой правки — один клик.

obsidian · ARCH-000124.mdsynced 2s ago
vault
originals/
markdown/
vault/
ARCH-000124.md
---
doc_id:ARCH-000124🔒
source_file:originals/ARCH-000124.pdf🔒
ocr_quality_score:0.94🔒
language:ru
document_type:policy
---
## Паспорт документа
Credit Risk Policy · v2026.1 · NB KZ
## OCR-текст · Page 7
Single-borrower exposure для корпоративных клиентов не должен превышать 15% от регуляторного капитала. См. также [[ARCH-000456]] о консолидированном расчёте для связанных групп.
# Экспертные комментарииprotected · expert-only
Этот регламент применяется в редакции 2026 года. Комитет принял решение применять буфер 25% даже для групп с консолидированным контролем менее 50%. См. протокол [[ARCH-000456]].
philosophy

Эксперты курируют знания, а не модерируют систему. Их работа — самостоятельный слой над автоматикой, не редактирование её черновика. Reprocess пересчитывает OCR; курация остаётся неприкосновенной.

/06/06 · AUDIT TRAIL

Любой ответ — полностью реконструируем.

Compliance-офицер открывает audit-панель, находит сессию по user_id + timestamp — и восстанавливает всё: запрос, retrieved chunks с relevance scores, модель и её версию, prompt, финальный ответ, citations, и были ли у пользователя права на каждый из документов в момент запроса.

session · 2026-05-28analyst@bank.kz
01
Query09:14:02

Вопрос пользователя, user_id, фильтры, timestamp.

02
Retrieved09:14:02

Top-K chunks с doc_id, page, chunk_id, relevance score, source оригинала.

ARCH-000042:b210.91✓ granted
ARCH-000042:c080.87✓ granted
ARCH-000118:a040.81✓ granted
ARCH-000204:d120.78✕ filtered · confidential
03
Ranked09:14:03

Reranker scores и финальное ранжирование. Видно, что чем било.

04
Answered09:14:04

LLM provider, версия модели, system prompt, температура, потреблённые токены.

modelclaude-3.5-sonnet
versionv20250114
prompt1 432 tokens
completion287 tokens
05
Cited09:14:05

Финальный текст с inline-citations и список источников. Контракт замкнут.

proof receiptsha256 · a3f9·b21c·44ee·90d7
compliance contract
  • Полная reconstruction любой сессии
  • Version history Markdown и JSON
  • Access checks на момент запроса
  • Экспорт audit-отчёта · PDF / JSON
  • Immutable оригиналы · sha256-verifiable
/08/08 · СРАВНЕНИЕ

Glean ищет. ChatGPT галлюцинирует. Stela цитирует.

Поиск без citation — это удобство. Чат с документами без audit trail — это риск. DMS без AI — это хранилище. Stela — единственная категория, где цитата до chunk и vendor-agnostic deployment — не опции, а контракт.

Glean / HebbiaChatGPT + docsDMS (M-Files)Stela
Citation до doc_id + page + chunk
Threshold-based no-answer fallback
OCR под сканы низкого качествачастичночастично
Защищённый экспертный vault
Полный audit trail сессиичастичночастично
Vendor-agnostic LLM / OCR / Vector DB
On-prem deployment
KZ data residency

Удобный поиск и красивый чат не пройдут аудит. Stela спроектирована, чтобы пройти.

REQUEST A PILOT

Один архив. Один пилот.

Не миграция всего корпоративного контента. Не платформенный rollout. Один корпус — обычно 500–2 000 документов — превращается в audit-grade слой знаний за 8–12 недель. Дальше архив расширяется по мере доверия.

step 01
Discovery & sample docs
30-минутный звонок: задача, аудитория, sample-корпус 50–200 документов.
step 02
Ingestion + verification
OCR, layout, metadata, индекс. Эксперт верифицирует sample. Метрики OCR и retrieval — на стол.
step 03
Pilot Q&A в проде
Citation-bound Q&A на вашем корпусе, ваши пользователи, ваши данные, ваш аудит — за 8–12 недель.

Citation-mandatory. Vendor-agnostic. On-prem. KZ residency. Один контракт.