Entwicklungstagebuch #2: Vorstellung von Chantal

28. April 2023 — 28. April 2023 — Entwicklung —

—

2022 war in Bezug auf Junk-Emails und Lärm so schlecht, dass ich Virtual Secretary gestartet habe, ein Python-Framework, um intelligente E-Mail-Filter zu schreiben, indem Informationen aus mehreren Quellen kombiniert werden, um herauszufinden, was eingehende E-Mails sind und ob sie wichtig/dringend sind oder nicht. Wenn ich von Junk-Mails spreche, sind das auch Github-Benachrichtigungen, Pings auf pixls.us (Gott sei Dank habe ich mein Konto in diesem dummen Forum geschlossen), YouTube und direkte E-Mails von Menschen, die hoffen, privat Hilfe zu bekommen.

Derweil “das Gesicht” von Darktable geworden zu sein, hauptsächlich, weil ich einer der wenigen bin, die sich die Mühe machen, Benutzerbildung und Schulungen anzubieten, anstatt nur Code zu schreiben, habe ich das nicht kommen sehen, und ich war nicht vorbereitet. Viele Menschen verwechseln mich jetzt mit der Rezeption, was nicht hilft, abstrakt zu denken über Programmierfragen, geschweige denn Zeit zu finden, tatsächlich Kunst zu produzieren. Das Problem ist, dass all die Zeit, die damit verloren geht, Informationen/Rauschen/Input zu verarbeiten, nicht für die Lösung von Problemen verwendet wird, und Zeit ist das Einzige, für das man keine Rückerstattung bekommt.

Nach einer Weile habe ich mir gedacht, es wäre schön, den Virtual Secretary mit einem maschinellen Lern-Klassifikator zu erweitern, der erraten würde, in welchen Ordner eingehende E-Mails gehen sollten, indem er den Inhalt der E-Mails in besagtem Ordner extrahiert. Es ist tatsächlich viel einfacher zu implementieren, als ich dachte, aber der zeitaufwändige Teil ist das Schreiben von Textfiltern, um den Input zu reinigen (denn Müll rein, Müll raus, besonders bei Spam-E-Mails, die in der Regel schlecht formatiert sind).

Aber das ultimative Ziel, in meinen wildesten Träumen, war es, einen automatischen Antworten für Leute zu bauen, die Fragen stellen, die bereits auf einer der vielen Websites beantwortet wurden, zu denen ich im Laufe der Jahre beigetragen habe. Es ist eine konstante Frustration zu sehen, dass all die Seiten der Dokumentation, die ich über die Jahre geschrieben habe, im Internet-Dickicht verloren sind. Auf FLOSS-zentrierten Foren neigen wohlwollende Jungs dazu, die gleiche Art von Müdigkeit zu erfahren: immer wieder die gleiche Information wiederholen, die gleichen Seiten verlinken, zu den nie endenden Horden von Neulingen, die nicht wissen, wonach sie suchen sollen. Schauen Sie sich einfach Reddit Darktable an: alle 14 Tage fragt jemand anderes, warum die Lighttable-Thumbnails nicht wie die Darkroom-Vorschau aussehen. Selbst abgesehen von der Menge an Frustration und Wut hier, ist die Anzahl an Mannstunden, die verloren gehen in der Wiederholung, erstaunlich. Einfach weil Informationen verloren gehen.

Das wahre Problem von Suchmaschinen ist, dass man wissen muss, nach welchen Stichwörtern man suchen soll. Was wieder zurück zu der Tatsache führt, dass Neulinge den Jargon nicht kennen. Also wissen sie nicht, wonach sie suchen sollen. Sie haben keinen Einstiegspunkt in die Matrix. Außer anderen Menschen. Was für diejenigen, die die Arbeit machen müssen, normalerweise kostenlos, sucks.

Nachdem ich eine neuronale Schicht von word2vec Wortembedding (große Worte, um zu sagen, dass es unüberwachtes maschinelles Lernen ist, das herausfindet, wie Wörter in Sätzen kontextuell verwandt sind, das heißt syntaktische Strukturen, Synonyme und ähnliches) als ersten Schritt in meinen E-Mail-Klassifikator eingebaut habe (der mittlerweile eine Genauigkeit von 92 % erreicht), fragte ich mich, ob dies nicht brauchbar wäre, um eine kontextbewusste und synonymbewusste Suchmaschine aufzubauen, die in der Lage ist, über genaue Stichwörter hinauszuschauen.

Es stellt sich heraus, dass ein paar Typen von Bing die gleiche Idee 2016 hatten und ihre Mathematik veröffentlichten, also habe ich sie implementiert. Dann habe ich eine Weboberfläche darüber gelegt. Das gebar Chantal , die KI, die Sie freundlich bitten, Sie zu belästigen, bevor Sie mich belästigen. Die aktuelle Version ist gegen 101.000 Internetseiten von meinen eigenen Websites, darktable & Ansel-Dokumentationen, zusammen mit einigen zuverlässigen Farbwissenschaftsressourcen trainiert. Sie indexiert 15.500 Seiten auf Französisch und Englisch und kann Suchanfragen in entweder oder beiden dieser Sprachen verarbeiten. Eine ihrer Hauptfunktionen ist es, Ihnen eine Liste von Stichwörtern vorzuschlagen, die mit Ihrer Anfrage verbunden sind, damit Sie verfeinern/neuausrichten/Dinge ausprobieren können, an die Sie vorher nicht gedacht hätten.

Hoffentlich hilft das.

Diese Arbeit hat mir gezeigt, wie schlecht indexierbar viele Websites sind. Um das Fehlen einer XML-Sitemap auf forums.darktable.fr und color.org zu berücksichtigen, musste ich einen rekursiven Crawler schreiben. Aber selbst dann haben viele Seiten keine Metabeschreibungen und ein richtiges Datum-Tag. Das bedeutet, dass man reguläre Ausdrücke und indirekte Methoden verwenden muss, um zu versuchen, die Metadaten zu identifizieren, und den HTML-Parser manuell einstellen muss, um den eigentlichen Inhalt der Webseite zu extrahieren (und Seitenleisten, Menüs, Praxises und Werbung, falls vorhanden zu verwerfen).

Dann beginnst du, Q&A-Foren wie Stack Overflow zu lieben, wo ordentliche Fragen einen Thread starten, ordentliche Antworten folgen und die besten Antworten von der Community ausgewählt werden. “Danke” und “Ich auch”-Nachrichten sind ausdrücklich in den Nutzungsbedingungen verboten. Auf Foren wie pixls.us oder forums.darktable.fr geht proper technische Information inmitten von halb-technischem Geschwafel, Lebensgeschichten und Bros Bonding über Softwareerzählungen in einem kontinuierlichen Thread verloren, wo nichts relevantes von irrelevantem, genaues von ungenauem unterscheidet und grobe Missverständnisse der Farbtheorie vorliegen. Aus der Perspektive der Maschinen-Crawler gibt es hier wenig zu nutzen, und die Investition von Zeit in eine solche Plattform ist ein Trockengeschäft.

Mehr (technische) Informationen:

Websites suck : Über die technischen Herausforderungen des Durchsuchens und Indexierens von HTML- (und… PDF)-Webseiten, in einer Zeit, in der Menschen große Dinge wie „Web 4.0“ oder „Internet of Things“ sagen, aber grundlegende Dinge wie die Bereitstellung von Seiten-Sitemaps oder das Setzen des Datums von Internetveröffentlichungen in standardisierte Formate immer noch zu viel für Webmaster und CMS verlangen,
Designing an AI search engine from scratch in the 2020’s : Wie Chantal gebaut wurde und wie die Dumbrish-synthetische Sprache geschaffen wurde, um natürliches Französisch und Englisch zu verallgemeinern, plus Regex-Freude,
Thoughts on Word2Vec AI for information retrieval applications : Wie die Eingabereinigung bei weitem der größte zeitaufwändige Schritt beim Entwerfen von KI- und Sprachmodellen ist, wobei zu semantisch genaue Modelle keine besseren Suchmaschinen machen.

Translated from English by : ChatGPT. In case of conflict, inconsistency or error, the English version shall prevail.

Entwicklungstagebuch #2: Vorstellung von Chantal

Author

Aurélien Pierre

Comments & Questions ?

Donations

Related topics

Search

(title) (score)