Das KI-Projekt

Das KI-Projekt nutzt Open-Source-Modelle, um Jugendlichen (also euch) einen praktischen Einstieg in Künstliche Intelligenz zu ermöglichen. In einer virtuellen Maschine hättet ihr mit Flask-Apps eigene Anwendungen zur Bilderkennung, Textverarbeitung und Bildverbesserung umsetzen können. Dabei hättet ihr aus fünf Modellen gewählt, ein Webinterface zur Steuerung erstellt und die Modelle kreativ für euer individuelles Projekt kombiniert.

Das KI-Projekt wurde extra für den N3150 optimiert, weil der nur die Power eines feuchten Toasts hat – also mussten „schwache“ bzw. kleine Modelle her. Aber da der Workshop nicht wie geplant stattfindet, läuft das Ganze jetzt auf meinem fetten Ryzen, und das Ding rennt wie der Teufel! Ihr hättet echt kranke Sachen lernen können… aber naja, jetzt klickt ihr halt nur planlos im Kreis und nennt es „Lernen“... Schei� Bildungssystem!

Bildbeschreibung (BLIP)

BLIP (Bootstrapping Language-Image Pre-training) ist ein Modell, das darauf abzielt, die Verbindung zwischen Bildern und Texten zu verbessern. Es nutzt eine Kombination aus Bild- und Sprachverarbeitung, um multimodale Aufgaben wie Bildunterschriftenerstellung und visuelle Fragebeantwortung zu bewältigen.

(Lade ein Bild hoch und lasse es dir von BLIP beschreiben, Sprache der Ausgabe ist Englisch)

Sentimentanalyse (DistilBERT)

DistilBERT (Bidirectional Encoder Representations from Transformers) wird in der Sentimentanalyse verwendet, um die emotionale Ausrichtung von Texten zu erkennen, indem es die kontextuelle Bedeutung von Wörtern erfasst und so präzisere Klassifizierungen ermöglicht. Durch seine kompakte Architektur bietet es eine schnellere Verarbeitung, was es ideal für Echtzeitanwendungen macht, bei denen schnelle Ergebnisse erforderlich sind.

(Schreibe oder kopiere z.B. ein Review (z.B. von Rotten Tomatoes) in den Prompt und lass dir von DistilBERT die Stimmung beschreiben, Sprache von Prompt und Ausgabe ist Englisch)

Textgenerierung (GPT-2)

GPT-2 (Generative Pre-trained Transformer 2) ist ein leistungsstarkes Sprachmodell, das in der Lage ist, menschenähnlichen Text zu generieren. Es wurde auf einer großen Menge an Textdaten vortrainiert und kann für verschiedene Aufgaben wie Textvervollständigung, Übersetzung und kreative Schreibanwendungen eingesetzt werden.

(Schreibe oder kopiere den ersten Satz einer Geschichte (z.B. diese) in den Prompt und lasse sie dir von GPT-2 weitererzählen, Sprache von Prompt und Ausgabe ist Englisch)

Texterkennung (EasyOCR)

EasyOCR (Easy Optical Character Recognition) ist eine leistungsstarke Open-Source-Texterkennungsbibliothek, die in der Lage ist, Text aus Bildern und Dokumenten zu extrahieren. Sie unterstützt über 80 Sprachen und kombiniert moderne Deep-Learning-Techniken mit optimierten Algorithmen, um auch bei schwierigen Bedingungen wie schlechter Beleuchtung oder perspektivischen Verzerrungen gute Ergebnisse zu liefern.

(Lade ein Bild mit Text hoch, und EasyOCR wird den enthaltenen Text automatisch erkennen und extrahieren. Unterstützte Sprachen sind u. a. Englisch, Deutsch, Französisch und viele mehr.)

Bildverbesserung (Real-ESRGAN)

Real-ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) ist ein fortschrittliches Bildverbesserungsmodell, das auf generativen neuronalen Netzen basiert. Es wurde speziell für die Rekonstruktion und Verbesserung von niedrigauflösenden oder verrauschten Bildern entwickelt und kann Details schärfen, Artefakte entfernen sowie die allgemeine Bildqualität deutlich verbessern.

(Lade ein unscharfes, verpixeltes oder komprimiertes Bild hoch (das Modell funktioniert am Besten mit Animes [z.B. von hier]) und Real-ESRGAN wird eine verbesserte Version mit höherer Qualität generieren)