Docsight - Dokumente zentral durchsuchen und anzeigen

Docsight - Dokumente zentral durchsuchen und anzeigen

Docsight ist eine selbst gehostete Dokumenten-Management-Lösung, die PDFs und andere Dateiformate indexiert und über eine Volltext-Suche im Browser zugänglich macht.

Was ist Docsight?

Wer viele Dokumente – Rechnungen, Handbücher, Verträge, Notizen – lokal speichert, verliert schnell den Überblick. Docsight löst dieses Problem durch automatische Indexierung: Neu abgelegte Dateien werden gescannt, per OCR aufbereitet (sofern nötig) und in einem Volltext-Index gespeichert. Die Web-Oberfläche erlaubt schnelle Suche und strukturierten Zugriff ohne aufwendige manuelle Kategorisierung. Docsight ist als leichtgewichtige Alternative zu Paperless-ngx konzipiert und benötigt weniger Ressourcen.

Voraussetzungen

  • Docker 20.10+ / Docker Compose
  • Verzeichnis mit zu indexierenden Dokumenten
  • Optional: OCR-Unterstützung erfordert Tesseract (im Image enthalten)

Compose-Beispiel

services:
  docsight:
    image: ghcr.io/docsight/docsight:latest
    container_name: docsight
    restart: unless-stopped
    ports:
      - "7070:7070"
    volumes:
      - ./documents:/documents:ro
      - ./index:/app/index
      - ./config.yaml:/app/config.yaml:ro
    environment:
      - TZ=Europe/Berlin
      - OCR_ENABLED=true
      - OCR_LANGUAGE=deu+eng

Hinweise

  • Dokumente read-only mounten (:ro) – Docsight muss keine Dateien schreiben, nur lesen und indexieren.
  • OCR_LANGUAGE auf die in den Dokumenten verwendeten Sprachen anpassen; deu+eng deckt deutsch-englische Dokumente ab.
  • Der Index liegt im index-Volume – dieses Volume sichern, um eine zeitaufwendige Neuindexierung zu vermeiden.
  • Große Dokumentensammlungen beim ersten Start zunächst in Batches einlesen, um den Speicher nicht zu überlasten.