In einem aktuellen Artikel auf Telepolis wird ein Fall beschrieben, bei dem ein Plagiatsgutachter Textähnlichkeiten zwischen zwei wissenschaftlichen Arbeiten aus demselben Umfeld festgestellt hat. Diese Beobachtungen haben eine breite Diskussion über wissenschaftliche Redlichkeit und Integrität ausgelöst.
Unabhängig von den Details dieses konkreten Falls lohnt es sich, die statistische Dimension der deutschen Sprache zu betrachten. Diese verfügt über einen Wortschatz von rund 400.000 Wörtern, die sich auf verschiedene Wortarten verteilen, darunter etwa 160.000 Substantive und 100.000 Verben. Betrachtet man einfache Satzstrukturen wie das Muster Subjekt – Verb – Objekt, ergeben sich daraus bereits mehr als 2,5 Billiarden grammatikalisch korrekte Kombinationen. Das bedeutet, dass sich beispielsweise Sätze wie „Kind malt Haus“ oder „Auto rammt Baum“ bilden lassen – ganz ohne Berücksichtigung von Bedeutung oder Kontext.
Fügt man weitere grammatikalische Elemente wie Artikel hinzu – etwa in einem Satz wie „Der Hund frisst den Knochen“ – steigt die Zahl der möglichen Kombinationen drastisch an, und zwar auf etwa 2,5 Trillionen grammatikalisch korrekte Sätze. Diese Zahlen verdeutlichen die enorme Vielfalt an Satzkombinationen, die allein auf formaler Ebene möglich sind.
Noch aussagekräftiger wird diese Betrachtung, wenn man den thematischen Rahmen einschränkt – etwa auf den Bereich juristischer Fachsprache, wie er typischerweise in juristischen Dissertationen verwendet wird. In solchen Arbeiten kommen bestimmte Begriffe und Formulierungen besonders häufig vor, während alltagssprachliche oder themenfremde Wörter – wie in den oben genannten Beispielen – kaum eine Rolle spielen. Reduziert man den Wortschatz auf etwa 40.000 lexikalische Einheiten, die im juristischen Kontext plausibel sind, ergibt sich auch bei einfachen Satzstrukturen wie Subjekt – Verb – Objekt noch immer eine Zahl möglicher Kombinationen im zweistelligen Milliardenbereich. Bei realistischeren, komplexeren juristischen Satzkonstruktionen, die aus mehreren Teilsätzen, Attributen und typischen juristischen Floskeln bestehen („im Rahmen des Vertragsverhältnisses“, „auf Grundlage von § 123 BGB“), steigt diese Zahl auf mehrere Billionen möglicher Varianten an.
Auch unter dieser Einschränkung bleibt die Wahrscheinlichkeit, dass zwei unabhängig entstandene Texte dieselben oder sich ähnelnde mehrgliedrigen Sätze formulieren, verschwindend gering. Das heißt nicht zwangsläufig, dass Übereinstimmungen auf eine bewusste Übernahme hinweisen, doch es zeigt, wie selten solche Fälle ohne gemeinsame Quelle oder Abstimmung zustande kommen dürften, insbesondere wenn beide Texte dieselben Fehler aufweisen. Die große sprachliche Vielfalt bietet nicht nur eine immense Breite an Ausdrucksmöglichkeiten, sondern auch eine Grundlage für die Bewertung von Originalität.
