Skip to content

Large Language Models / EndPoints

RAG macht LLM besser und gleichwertig

Retrieval-Augmented Generation (RAG) steigert die Leistung von Large Language Models (LLMs) in verschiedenen GenAI-Anwendungen erheblich. RAG steigert die Qualität der Antworten von LLMs um bis zu 13% * (Referenz Es at el., Antwortgenauigkeit, gemessen an der "faithfulness"-Metrik). Diese Verbesserung ist sogar mit Informationen innerhalb der ursprünglichen Trainingsdomäne des LLMs konsistent.

Die Effektivität von RAG wächst mit der Menge an Daten, die für die Suche zur Verfügung stehen. Eine derart umfangreiche Datenverfügbarkeit ermöglicht es LLMs, sachlich korrektere Ergebnisse zu liefern. Interessanterweise ist diese Verbesserung nicht auf High-End-Modelle wie GPT-4 beschränkt. Vergleichbare Leistungsniveaus lassen sich auch mit anderen Modellen erreichen, wie bspw. Mistral tiny.

Zusammenfassend lässt sich sagen, dass die Verwendung von RAG mit reichlich Daten die Ergebnisse von GenAI-Anwendungen verbessert, unabhängig von dem verwendeten LLM. Dieser Ansatz eröffnet die Möglichkeit, eine Reihe von LLMs zu verwenden und bietet Flexibilität in Bezug auf Kosten und Ressourcenbedarf.( Quelle )

img.png

Fazit und Erfahrungen

Bei der Verwendung von kleineren Sprachmodellen (LLMs) für Retrieval-Augmented Generation (RAG)-Systeme gibt es mehrere Vorteile, die sich besonders in Bezug auf Geschwindigkeit, Genauigkeit und Flexibilität bemerkbar machen:

Geschwindigkeit und Effizienz: Kleinere LLMs weisen im Vergleich zu grösseren Modellen eine deutlich geringere Latenz auf. Dies resultiert in schnelleren Antwortzeiten, was insbesondere für Anwendungen wie Chatbots entscheidend sein kann. Die Zeit bis zum ersten Token (TTFT) und die Zeit pro ausgegebenem Token (TPOT) sind bei kleineren Modellen typischerweise niedriger.

Präzision bei der Informationsbeschaffung: Bei der Nutzung von RAG-Systemen ist die Zerlegung grosser Textkorpora in kleinere, handhabbare Abschnitte (Chunks) erforderlich. Kleinere Chunks ermöglichen eine präzisere Informationsbeschaffung, da sie spezifischere Konzepte erfassen können. Dies kann insbesondere bei der Suche nach relevanten Informationen in großen Datenmengen vorteilhaft sein.

Anpassungsfähigkeit und Flexibilität: Kleinere Modelle bieten eine größere Flexibilität bei der Anpassung an spezifische Anwendungsfälle. Beispielsweise können fein abgestimmte kleinere Modelle in bestimmten Aufgabenbereichen genauso gut oder sogar besser als größere Modelle wie GPT-4 abschneiden. Dies eröffnet Möglichkeiten für massgeschneiderte Lösungen, die speziell auf die Bedürfnisse und Anforderungen eines bestimmten Einsatzbereichs zugeschnitten sind.

Verbesserung der Nutzererfahrung: Die Verwendung von RAG in Verbindung mit kleineren LLMs kann die Nutzererfahrung verbessern, indem sie schnellere und präzisere Antworten auf Anfragen liefert. Dies ist besonders wichtig in interaktiven Anwendungen, wo schnelle Reaktionszeiten und Genauigkeit entscheidend sind.

Datenschutz und Sicherheit: Kleinere LLMs, die in einem RAG-System eingesetzt werden, können helfen, den Datenschutz und die Datensicherheit zu verbessern. Da sensible Daten on-premises gehalten werden können, ist es einfacher, die Kontrolle über den Datenzugriff und die Datennutzung zu behalten.

Insgesamt bieten kleinere LLMs in Kombination mit RAG-Systemen eine effiziente, anpassungsfähige und präzise Lösung für eine Vielzahl von Anwendungsfällen, insbesondere dort, wo schnelle Antwortzeiten und spezifische Informationsbedürfnisse gefragt sind

Betrieb der LLMs

mistral-swiss

Schweiz im Datacenter unseres Partners Exoscale betrieben, welches folgenden Standards entspricht: Finma compliant, ISO 9001:2015, ISO 27001:2013, PCI DSS 3.2, SOC-1 Type II, SOC-2 Type II Kein Logging oder speichern von Prompts!

mistral-tiny, mistral-small , mistral-medium

Die Modelle werden auf Servern in der Europäischen Union betrieben und eignet sich mit der Anonymisierung für nicht sehr sensitive Daten.

gpt-3.5-turbo-1106, gpt-4-1106-preview, gpt-4

Die Modelle werde in den USA betrieben. Informationen zur Security und Privacy

Plattform und Anonymisierung Service

Die Plattform wird ausschliesslich in der Schweiz im Datacenter unseres Partners Exoscale betrieben, welches folgenden Standards entspricht: Finma compliant, ISO 9001:2015, ISO 27001:2013, PCI DSS 3.2, SOC-1 Type II, SOC-2 Type II

Vergleich der Leistungsfähigkeit

Sie finden hier die eine Liste von Benchmarks für Large Language Models (LLMs), darunter MMLU, HellaSwag, ARC Challenge, Winogrande, GMS 8k und MT Bench. Diese Benchmarks sind entscheidend, um die Leistungsfähigkeit und Vielseitigkeit von Sprachmodellen in verschiedenen Szenarien zu bewerten.

MMLU (MultiModal Language Understanding) testet das Verständnis von Modellen in einem multimodalen Kontext, während HellaSwag die Fähigkeit von Modellen bewertet, Sätze sinnvoll zu vervollständigen. Die ARC Challenge ist ein anspruchsvoller Test für das wissenschaftliche Verständnis und Problemlösungsfähigkeiten. Winogrande fokussiert sich auf das Verständnis von Pronomen in Texten, was ein Schlüsselaspekt des natürlichen Sprachverstehens ist. GMS 8k (Generalized Model Scoring 8k) und MT Bench bieten spezialisierte Tests für die Bewertung der Sprachgenerierung und -übersetzung.

Unsere Analyse zielt darauf ab, ein umfassendes Bild der Stärken und Schwächen verschiedener Sprachmodelle zu liefern, indem wir sie über diese vielfältigen Benchmarks hinweg vergleichen. Dadurch können Entwickler und Nutzer besser informierte Entscheidungen darüber treffen, welches Modell für ihre spezifischen Anwendungen am besten geeignet ist.

Benchmarks

Mistral-tiny / swissGPT-3.5Mistral-smallMistral-mediumGPT 4
MMLU
(MCQ in 57 subjects)
63.0%70.0%70.6%75.3%86.4%
HellaSwag
(10-shot)
83.1%85.5%86.7%88.0%95.3%
ARC Challenge
(25-shot)
78.1%85.2%85.8%89.9%96.3%
WinoGrande
(5-shot)
78.0%81.6%81.2%88.0%87.5%
GSM-8K
(5-shot)
36.5%57.1%58.4%66.7%97%
MT Bench
(for Instruct models)
7.618.328.308.619.32

Vergleich der Leistungsfähigkeit von Sprachmodellen: Ein Überblick über führende Benchmarks

In der Welt der Sprachmodelle ist die Leistungsbewertung von entscheidender Bedeutung. Um ein umfassendes Verständnis für die Fähigkeiten verschiedener Modelle zu entwickeln, ist es wichtig, sie anhand einer Reihe von Benchmarks zu vergleichen. Diese Benchmarks testen verschiedene Aspekte künstlicher Intelligenz, von Verständnis bis hin zu Problemlösungsfähigkeiten. Hier geben wir einen Überblick über einige der wichtigsten Benchmarks:

  1. MMLU (Massive Multitask Language Understanding): Bewertet das Verständnis eines Modells über ein breites Spektrum von Themen und Disziplinen, um zu beurteilen, wie gut ein Modell komplexe Texte versteht und daraus Schlussfolgerungen zieht.

  2. HellaSwag: Fokussiert auf die Vorhersage von Textabschlüssen in verschiedenen Szenarien, misst dieser Test, wie gut ein Modell kreative und plausible Fortsetzungen für gegebene Textausschnitte generieren kann.

  3. ARC Challenge (AI2 Reasoning Challenge): Prüft das logische Denkvermögen und die Fähigkeit zur Problemlösung eines Modells, eine hervorragende Methode, um die Fähigkeit eines Modells zu testen, komplexe Fragen zu beantworten.

  4. Winogrande: Als Test für das Verständnis von Winograd-Schema-Fragen, prüft Winogrande die Fähigkeit eines Modells, subtile semantische Unterschiede in Sätzen zu erkennen und zu interpretieren.

  5. GMS 8K (Grade School Math 8K): Testet mathematische Fähigkeiten und das Verständnis für grundlegende mathematische Konzepte, ein Indikator dafür, wie gut ein Modell mit numerischen Daten und logischen Problemen umgehen kann.

  6. MT-Bench: Speziell für die Bewertung von maschinellen Übersetzungsmodellen entwickelt, prüft dieser Benchmark die Effektivität und Genauigkeit eines Modells bei der Übersetzung von Texten zwischen verschiedenen Sprachen.

Durch die Bewertung eines Sprachmodells anhand dieser Benchmarks können wir ein detailliertes Bild seiner Fähigkeiten und Grenzen gewinnen, was entscheidend ist, um die geeignetsten Modelle für spezifische Anwendungen und Aufgaben auszuwählen.