Mit dem Boom von KI-Tools wie ChatGPT, Gemini und Co. werden tĂ€glich Millionen texte generiert. Was viele nicht wissen: In manchen FĂ€llen enthalten diese Texte Unsichtbare Zeichen, die beim bloĂen Lesen nicht auffallen, aber bei der Weiterverarbeitung Probleme verursachen können.
Sei es beim Import in Excel oder Access, beim Abgleich in einer Datenbank oder bei der Ăbernahme in Webformulare – plötzlich stimmen LĂ€ngen nicht, Zeichenvergleiche scheitern oder Formate zerschieĂen.
Oft liegt das an sogenannten Zero-Width Characters oder Àhnlichen Unicode-Sonderzeichen.
In diesem Beitrag zeige ich dir:
- Welche unsichtbaren Zeichen hÀufig vorkommen
- Wie du sie in VBA und PHP zuverlÀssig findest und entfernst
- Warum eine Textbereinigung beim Arbeiten mit KI-Daten zur Pflicht werden sollte
Hintergrund: Was sind „geheime Wasserzeichen„?
Es gibt zwei Arten von Wasserzeichen in KI-Texten:
- Statistische Wasserzeichen
- Nicht sichtbare Textmuster oder bevorzugte Wortwahlen, die Algorithmen erkennen können.
- Unsichtbare Unicode-Zeichen
- Einzelne Zeichen im Text, die keine Breite haben und daher fĂŒr Menschen unsichtbar sind. Beispiele:
- Zero Width Space (
U+200B) - Zero Width Non-Joiner (
U+200C) - Byte Order Mark (
U+FEFF) - Left-to-Right Mark (
U+200E) - Right-to-Left Override (
U+202E)
- Zero Width Space (
- Einzelne Zeichen im Text, die keine Breite haben und daher fĂŒr Menschen unsichtbar sind. Beispiele:
Diese Zeichen werden oft unbeabsichtigt eingefĂŒgt, insbesondere beim Copy & Paste von Webseiten oder KI-Editoren.
Praktische Lösungen
Hier zwei kompakte Funktionen, mit denen du solche unsichtbaren Zeichen aus deinen Texten Entfernen kannst – je nach Programmiersprache.
đ Lösung in VBA: CleanInvisibleChars
Wenn du mit Excel, Access oder Word arbeitest und Texte aus KI oder Webquellen verarbeitest:
Function CleanInvisibleChars(ByVal txt As String) As String
Dim invisibleChars As Variant
Dim i As Long
invisibleChars = Array( _
ChrW(&H200B), ChrW(&H200C), ChrW(&H200D), _
ChrW(&H200E), ChrW(&H200F), ChrW(&H202A), ChrW(&H202B), _
ChrW(&H202C), ChrW(&H202D), ChrW(&H202E), _
ChrW(&H2060), ChrW(&HFEFF))
For i = LBound(invisibleChars) To UBound(invisibleChars)
txt = Replace(txt, invisibleChars(i), " ") ' alternativ: "" zum Löschen
Next i
CleanInvisibleChars = txt
End Function
Anwendung:
Dim myText As String
myText = CleanInvisibleChars(myText)
đ Lösung in PHP: cleanInvisibleChars()
Wenn du Webanwendungen oder APIs entwickelst und KI-Textdaten verarbeitest:
function cleanInvisibleChars(string $text): string {
// Liste unsichtbarer Unicode-Zeichen
$invisibleChars = [
"\u{200B}", "\u{200C}", "\u{200D}", "\u{200E}", "\u{200F}",
"\u{202A}", "\u{202B}", "\u{202C}", "\u{202D}", "\u{202E}",
"\u{2060}", "\u{FEFF}"
];
return str_replace($invisibleChars, ' ', $text); // oder '' zum Entfernen
}
Anwendung:
$text = cleanInvisibleChars($text);
Hinweis: PHP 7+ unterstĂŒtzt die \u{}-Syntax fĂŒr Unicode-Zeichen in Strings.
Wann sollte ich KI-Texte bereinigen?
Du solltest die Bereinigung immer dann einsetzen, wenn du:
- Texte aus unbekannten Quellen importierst
- Inhalte in automatischen Prozessen verarbeitest (z. B. APIs, Datenbanken, CRM-Systeme)
- Vergleiche oder DuplikatprĂŒfungen auf Textebene durchfĂŒhrst
- Benutzereingaben absichern willst, bevor sie gespeichert oder weiterverarbeitet werden
Gerade bei Schnittstellen zwischen Mensch, KI und Datenbank kann eine kleine Bereinigungsfunktion viele spÀtere Probleme verhindern.
Geheime Wasserzeichen in KI-Texten sind real – auch wenn sie nicht immer absichtlich eingefĂŒgt werden. Mit kleinen Helferlein wie CleanInvisibleChars() in VBA oder PHP kannst du deine Anwendungen absichern und sauber halten.
âĄïž Merke:
Je mehr KI du in deinen Workflow integrierst, desto wichtiger wird eine intelligente Textreinigung im Hintergrund.
đ Tipp vom DatenschĂ€fer:
Automatisiere diese Reinigung konsequent am Anfang deiner Prozesse – bevor deine KI-Texte Tabellen, Abfragen oder Webprojekte erreichen.