Avvio rapido

I3K RAG Enterprise è una piattaforma RAG self-hosted che gira al 100% sulla tua infrastruttura. Nessuna dipendenza da cloud US, nessun dato che esce dal tuo perimetro, licenza AGPL-3.0. L'installer one-command porta su tutto lo stack — Qdrant, Ollama, backend FastAPI, frontend React e pipeline OCR — in circa un'ora, o circa 15 minuti con una connessione veloce.

Questa guida ti porta da un host Ubuntu pulito alla tua prima query RAG.

Requisiti

  • OS: Ubuntu 20.04+ (consigliato 22.04)
  • RAM: 16 GB minimo, 32 GB raccomandati
  • Storage: 50 GB o più
  • GPU: NVIDIA CUDA (8–16 GB VRAM consigliati), AMD ROCm, oppure CPU-only
  • Rete: 80+ Mbit/s consigliati per il download iniziale dei modelli

GPU vs CPU

La GPU è fortemente raccomandata per avere latenze utilizzabili con Qwen3:14b-q4_K_M. La modalità CPU-only è adatta a sviluppo e a corpus piccoli; aspettati tempi di risposta più alti.

Installazione (1 comando)

Clona il repository ed esegui l'installer:

git clone https://github.com/I3K-IT/RAG-Enterprise.git
cd RAG-Enterprise
./install.sh

L'installer è interattivo. Ti chiede due cose:

  1. Tipo di GPU — NVIDIA, AMD o CPU. Configura Ollama e il runtime di embedding di conseguenza.
  2. Modello LLMQwen3:14b-q4_K_M (default, qualità migliore su 16 GB di VRAM) oppure Mistral 7B Q4 (più leggero, sta in 8 GB).

Da qui in poi lo script gira senza supervisione. Il tempo totale è di circa un'ora su una connessione tipica, ~15 minuti su una linea veloce.

Cosa fa lo script

  • Scarica e configura Qdrant come vector store (port 6333)
  • Installa Ollama (port 11434) e scarica il modello LLM scelto
  • Configura il backend FastAPI (port 8000) con la pipeline RAG basata sul nostro orchestrator interno
  • Costruisce e serve il frontend React + Vite (port 3000)
  • Inizializza il database utenti SQLite con auth JWT e i tre ruoli (User, Super User, Admin)
  • Installa Apache Tika e Tesseract per parsing documenti e OCR
  • Scarica il modello di embedding BAAI/bge-m3 (29 lingue)

Al termine, l'installer stampa le credenziali admin generate. Salvale.

Primo accesso

Apri il frontend:

http://localhost:3000

Accedi con l'account admin stampato dall'installer. Dalla sidebar a sinistra vai su Documenti e carica il primo file. Formati supportati: PDF (con OCR per le pagine scansionate), DOCX/DOC, PPTX/PPT, XLSX/XLS, TXT, MD, ODT, RTF, HTML, XML.

Primo upload e query

Al caricamento, la pipeline del backend esegue:

  1. Estrazione — Apache Tika fa il parsing del file; Tesseract gestisce i PDF scansionati via OCR.
  2. Chunking — il testo viene suddiviso in chunk semantici.
  3. Embedding — ogni chunk viene codificato con BAAI/bge-m3 (multilingua, 29 lingue).
  4. Indicizzazione — i vettori vengono scritti su Qdrant insieme ai metadati.

Quando l'indicizzazione è completa, fai una domanda dalla UI di chat. Il backend recupera i chunk rilevanti da Qdrant, li passa a Ollama con il modello LLM scelto e restituisce una risposta basata sui documenti, con citazioni alle fonti.

Lo stesso percorso di query è esposto anche come API REST dal backend FastAPI sulla port 8000, così puoi integrare I3K RAG Enterprise nelle tue applicazioni. Gli endpoint sono protetti da JWT e rispettano i confini dei ruoli User / Super User / Admin.

Prossimi passi

Ora hai un deployment single-node funzionante. Leggi la panoramica dell'architettura per capire come si incastrano i componenti, oppure vai a topologie di deployment per multi-nodo, backup con rclone e hardening di produzione.