Wie ihr wisst, habe ich auf meinem alten Raspberry Pi 4 den KI-Agenten OpenClaw installiert und bin gerade am Herausfinden, was man damit machen kann und wo seine Grenzen sind. Passend dazu habe ich das LLM MiniMax verknüpft, und das kostet mich 10 $ im Monat.
Bisher habe ich vor allem versucht, das LLM auszureizen, aber das hat nicht geklappt, denn auch wenn die Antworten nicht so schnell wie bei ChatGPT kommen, habe ich nie Probleme gehabt, weil ich die Anzahl Token verbraucht habe. Aber ich schaffe das schon mal noch 🙂
Heute wollte ich aber wissen, wie gut er in der Bilderkennung ist. Ich weiss nicht, ob ihr euch noch an die grosse Einführung von OCR (Optical Character Recognition) erinnert? Auf einmal hat jedes Unternehmen versprochen, dass man mit OCR schnell und einfach Dokumente erkennen kann. Die Wahrheit aber war eine ganz andere: Wenn man kein sauberes weisses Papier mit schwarzer Schrift hatte, hatte jedes OCR-Programm massiv Mühe, hier etwas zu erkennen, und oft war es nur die Hälfte.
Also habe ich ein paar Fotos von Einkaufsquittungen gemacht und wollte sie von OpenClaw analysieren lassen.
Leider ging das nicht, da OpenClaw diese Fähigkeit noch nicht hat.
Also habe ich ihm dann in einem Befehl gesagt, er soll sich eine NPM-Bibliothek installieren und in seine Skill.md reinschreiben, damit er es kann.
kannst du das hier installieren und in deine skills aufnehmen so dass alle heic bilder von dir selbst umgewandelt werden können
https://www.npmjs.com/package/heic-convert
Das hat er dann auch getan, und zack hat er das HEIC-Bild umgewandelt und mir eine schöne Auflistung gemacht.
Ich habe aber gemerkt, dass er die Bilder in hoher JPG-Qualität abspeichert, und so sagte ich OpenClaw auch Folgendes:
mach das nochmal aber diesmal komprimier die jpg bilder auf 50% so dass sie nicht soviel speicherplatz weg fressen
Und als Resultat hatte ich Bilder, die anstatt 1.2 MB schwer waren, nur noch 600 KB gross waren.
Und so habe ich ihm nochmal die Frage gestellt ob er die Quittungen lesen kann und er sie auflisten kann.
Ich habe ihm dann ein weiteres Bild geschickt mit einem Foto von dem, was ich heute gekocht habe.
Und habe es natürlich auch gleich analysieren lassen.
Wie ihr sehen könnt, war die Antwort ziemlich gut.
Ich weiss nicht, wofür man das wirklich alles brauchen kann – Quittungen für die Buchhaltung organisieren, eventuell?
Aber es ist schon cool, was so eine kleine Kiste schon mit einfachen Mitteln schafft.
Wer also seinem OpenClaw beibringen möchte, wie er ein HEIC Bild in ein JPG Umwandeln kann, sollte sich diese NPM Erweiterung anschauen – HEIC Converter
Ich bin gespannt, was ich mit OpenClaw noch alles entdecken kann.
Habt ihr OpenClaw auch installiert? Erzählt mir doch mal, was ihr damit alles macht – erzählt mir eure Geschichten! Danke







0 Kommentare