Stärkung von Unternehmens-LLMs mit Grundlagen für maschinelles Lernen

Sobald diese Komponenten vorhanden sind, erfordern komplexere LLM-Herausforderungen differenzierte Ansätze und Überlegungen – von der Infrastruktur bis hin zu Fähigkeiten, Risikominderung und Talent.

Bereitstellung von LLMs als Backend

Beim Inferenzieren mit herkömmlichen ML-Modellen wird in der Regel ein Modellobjekt als Container gepackt und auf einem Inferenzserver bereitgestellt. Wenn die Anforderungen an das Modell steigen – mehr Anfragen und mehr Kunden erfordern mehr Laufzeitentscheidungen (höhere QPS innerhalb einer Latenzgrenze) – ist zur Skalierung des Modells lediglich das Hinzufügen weiterer Container und Server erforderlich. In den meisten Unternehmensumgebungen funktionieren CPUs gut für die herkömmliche Modellinferenz. Das Hosten von LLMs ist jedoch ein viel komplexerer Prozess, der zusätzliche Überlegungen erfordert.

LLMs bestehen aus Token – den Grundeinheiten eines Wortes, die das Modell verwendet, um eine menschenähnliche Sprache zu generieren. Sie treffen im Allgemeinen autoregressive Vorhersagen auf Token-für-Token-Basis, basierend auf zuvor generierten Token, bis ein Stoppwort erreicht ist. Der Prozess kann schnell umständlich werden: Tokenisierungen variieren je nach Modell, Aufgabe, Sprache und Rechenressourcen. Ingenieure, die LLMs bereitstellen, benötigen nicht nur Erfahrung in der Infrastruktur, beispielsweise mit der Bereitstellung von Containern in der Cloud, sondern müssen auch die neuesten Techniken kennen, um die Inferenzkosten überschaubar zu halten und Leistungs-SLAs einzuhalten.

Vektordatenbanken als Wissensspeicher

Der Einsatz von LLMs in einem Unternehmenskontext erfordert die Einrichtung von Vektordatenbanken und anderen Wissensdatenbanken, die in Echtzeit mit Dokumentrepositorys und Sprachmodellen zusammenarbeiten, um sinnvolle, kontextrelevante und genaue Ergebnisse zu erzeugen. Beispielsweise kann ein Einzelhändler ein LLM verwenden, um eine Konversation mit einem Kunden über eine Messaging-Schnittstelle zu ermöglichen. Das Modell benötigt Zugriff auf eine Datenbank mit Echtzeit-Geschäftsdaten, um genaue, aktuelle Informationen über aktuelle Interaktionen, den Produktkatalog, den Gesprächsverlauf, Unternehmensrichtlinien bezüglich Rückgaberichtlinien, aktuelle Werbeaktionen und Anzeigen auf dem Markt sowie Kunden abzurufen Servicerichtlinien und FAQs. Diese Wissensrepositorys werden zunehmend als Vektordatenbanken für den schnellen Abruf von Abfragen über Vektorsuch- und Indexierungsalgorithmen entwickelt.

Training und Feinabstimmung mit Hardwarebeschleunigern

LLMs stehen vor einer zusätzlichen Herausforderung: der Feinabstimmung für optimale Leistung bei spezifischen Unternehmensaufgaben. Große Unternehmenssprachmodelle könnten Milliarden von Parametern haben. Dies erfordert anspruchsvollere Ansätze als herkömmliche ML-Modelle, einschließlich eines persistenten Rechenclusters mit Hochgeschwindigkeitsnetzwerkschnittstellen und Hardwarebeschleunigern wie GPUs (siehe unten) für Training und Feinabstimmung. Nach dem Training benötigen diese großen Modelle auch Multi-GPU-Knoten für die Inferenz mit aktivierter Speicheroptimierung und verteiltem Computing.

Um den Rechenanforderungen gerecht zu werden, müssen Unternehmen umfangreichere Investitionen in spezielle GPU-Cluster oder andere Hardwarebeschleuniger tätigen. Diese programmierbaren Hardwaregeräte können angepasst werden, um bestimmte Berechnungen wie Matrix-Vektor-Operationen zu beschleunigen. Die öffentliche Cloud-Infrastruktur ist ein wichtiger Faktor für diese Cluster.

Ein neuer Ansatz für Governance und Leitplanken

Die Risikominderung ist während des gesamten Lebenszyklus des Modells von größter Bedeutung. Beobachtbarkeit, Protokollierung und Ablaufverfolgung sind Kernkomponenten von MLOps-Prozessen, die dabei helfen, Modelle nach ihrer Veröffentlichung auf Genauigkeit, Leistung, Datenqualität und Drift zu überwachen. Dies ist auch für LLMs von entscheidender Bedeutung, es sind jedoch zusätzliche Infrastrukturebenen zu berücksichtigen.

LLMs können „halluzinieren“, wobei sie gelegentlich falsches Wissen ausgeben. Unternehmen benötigen geeignete Leitplanken – Kontrollen, die ein bestimmtes Format oder eine bestimmte Richtlinie durchsetzen –, um sicherzustellen, dass LLMs in der Produktion akzeptable Antworten zurückgeben. Herkömmliche ML-Modelle basieren auf quantitativen, statistischen Ansätzen, um Ursachenanalysen anzuwenden, um Ungenauigkeiten und Abweichungen in der Produktion zu modellieren. Bei LLMs ist dies eher subjektiv: Dazu kann es erforderlich sein, eine qualitative Bewertung der LLM-Ausgaben durchzuführen und diese dann anhand einer API mit voreingestellten Leitplanken auszuführen, um eine akzeptable Antwort sicherzustellen.

source site

Leave a Reply