Analyse

Was passiert, wenn KI das Lastenheft liest? Ein Erfahrungsbericht aus der Bahntechnik

Von der Anforderungsextraktion über RAG-basierte Klassifizierung bis zur Normenerkennung im CENELEC/TSI-Ökosystem: Was KI bei 800+ technischen Anforderungen tatsächlich leistet, wie die Technik unter der Haube arbeitet — und wo sie an ihre fünf systematischen Grenzen stößt.

tendric Redaktion18. November 202518 Min. Lesezeit

Einleitung

Was passiert eigentlich, wenn man einem KI-System ein Lastenheft mit 800 technischen Anforderungen gibt und sagt: „Bewerte das“? Die Antwort ist weder die Science-Fiction-Vision einer vollautomatischen Angebotsmaschine noch die zynische Variante „nichts Brauchbares“. Die Realität liegt dazwischen, und sie ist differenzierter, als die meisten Marketingversprechen von KI-Anbietern vermuten lassen.

Dieser Artikel beschreibt, Schritt für Schritt, was tatsächlich passiert, wenn ein KI-System ein reales Lastenheft aus der Bahntechnik verarbeitet. Basierend auf Erfahrungen mit realen Ausschreibungsunterlagen, inklusive der Stellen, an denen die Technik funktioniert, und derer, an denen sie scheitert.

Die Frage ist nicht akademisch. Laut dem Loopio 2025 RFP Response Trends & Benchmarks Report nutzen branchenübergreifend bereits 68 % der Proposal-Teams generative KI, eine Verdopplung gegenüber 34 % im Jahr 2023. Die Bahnindustrie steht hier noch am Anfang, obwohl spezialisierte Plattformen wie Tendric genau diesen Anwendungsfall adressieren. Der jährliche NLP4RE-Workshop (Natural Language Processing for Requirements Engineering) zeigt aber, dass die Automatisierung der Anforderungsanalyse mittels NLP längst aus der Nische herausgewachsen ist.

Hinweis zur Einordnung

Dieser Artikel beschreibt die Leistungsfähigkeit aktueller KI-Systeme bei der Lastenheftbearbeitung auf Basis von Praxiserfahrungen und öffentlich verfügbaren Branchendaten. Es handelt sich nicht um einen kontrollierten Benchmark, sondern um einen praxisnahen Erfahrungsbericht. Wenn konkrete Zahlen genannt werden, ist die Datengrundlage angegeben.

Was sieht die KI, wenn sie ein Lastenheft öffnet?

Ein Lastenheft ist aus Sicht eines KI-Systems zunächst einmal ein Dokument: eine Excel-Datei mit 8 Tabellenblättern (LH1 bis LH8), tausenden Zeilen und einem Dutzend Spalten. Oder ein PDF. Oder, im Idealfall, ein strukturierter Datensatz im ReqIF-Format (Requirements Interchange Format), dem OMG-Standard für den werkzeugübergreifenden Austausch von Anforderungen, der seinen Ursprung in der Automobilindustrie hat und zunehmend auch in der Bahntechnik eingesetzt wird.

Bevor irgendeine inhaltliche Verarbeitung stattfinden kann, muss das System drei Grundaufgaben lösen:

Strukturerkennung: Welche Zeilen sind Anforderungen, welche sind Abschnittsüberschriften, welche sind Leerzeilen oder Kommentare? Im VDB-Leitfaden Anforderungsmanagement empfiehlt der Verband der Bahnindustrie in Deutschland eine einheitliche Attributstruktur für Lastenhefte. In der Praxis weicht die Realität aber erheblich davon ab.
Feldextraktion: Wo steht die Anforderungs-ID, wo der Text, wo die Verbindlichkeit (muss/soll/option), wo die Normenreferenz? Der internationale Standard ISO/IEC/IEEE 29148:2018 definiert zwar, welche Attribute eine Anforderung haben sollte, aber Besteller in der Bahnindustrie folgen diesem Standard selten explizit.
Bereinigung: Zusammengeführte Zellen, Zeilenumbrüche mitten im Text, Unicode-Sonderzeichen (‰ vs. %), verschiedene Datumsformate, und semantisch relevante Zellformatierungen (Farben, Fettdruck), die beim reinen Textexport verloren gehen.

Das Format-Problem: Excel vs. PDF vs. ReqIF

Das Eingabeformat bestimmt die Obergrenze der Verarbeitungsqualität. Excel-Dateien mit klarer Tabellenstruktur lassen sich zuverlässig parsen. PDFs hingegen sind aus NLP-Sicht problematisch: Wie Explosion AI (die Entwickler von spaCy) zusammenfassen: „Get your data out of PDFs as early as possible.“ Der Grund: PDFs enthalten keine semantische Struktur, nur visuelle Positionierungsanweisungen. Was für das menschliche Auge eine Tabelle ist, sind für den Parser einzelne Textfragmente an x/y-Koordinaten. Aktuelle Benchmarks zeigen: Selbst spezialisierte Tools wie Docling erreichen bei Tabellen nur ca. 97,9 % Genauigkeit , wohlgemerkt bei einfachen Tabellen. Bei verschachtelten Layouts mit verbundenen Zellen fällt die Genauigkeit deutlich ab.

Diese Vorverarbeitung klingt trivial, ist es aber nicht. Jeder Besteller strukturiert sein Lastenheft anders. Die Spaltenreihenfolge variiert, Abschnittsüberschriften stehen in derselben Spalte wie Anforderungstexte, und manche Besteller verwenden Farben oder Formatierungen als semantische Information, die beim Import verloren geht. Das Forschungsfeld Document Parsing beschreibt genau dieses Problem: Dokumente sind „visually rich text data“. Ihre Bedeutung ergibt sich nicht allein aus dem Text, sondern auch aus Layout, Schriftart, Tabellenstruktur und visuellen Elementen.

Phase 1: Anforderungsextraktion

Die Extraktion einzelner Anforderungen aus dem Rohdokument ist der erste und kritischste Schritt. Fehler hier pflanzen sich durch alle nachfolgenden Verarbeitungsschritte fort. Eine fehlerhafte Extraktion lässt sich weder durch eine gute Klassifizierung noch durch ein gutes Routing kompensieren.

0%+

Erkennungsrate bei strukturierten Excel-Dateien

Wenn ID-Spalte und Anforderungsspalte klar identifizierbar sind

0–75%

Erkennungsrate bei PDFs

Abhängig von Layout, Tabellen in PDF und Textqualität

Manuelle Prüfung empfohlen

Unabhängig von der Erkennungsrate: Stichprobenprüfung ist Pflicht

Die Extraktion umfasst mehrere Teilschritte, die jeweils eigene Herausforderungen mit sich bringen:

ID-Erkennung: Das typische Format X.35.YYYY.ZZ wird per Mustererkennung identifiziert. Die Trefferrate ist hoch, solange der Besteller ein konsistentes ID-Schema verwendet. Problematisch wird es bei abweichenden Formaten: Manche Besteller nutzen hierarchische IDs (3.2.1.4), andere verwenden laufende Nummern (REQ-0412), wieder andere verzichten ganz auf formale IDs und arbeiten mit Zeilennummern.
Verbindlichkeitserkennung: „muss“, „soll“, „kann“, „ist zu“, „hat zu“ werden als Verbindlichkeitsindikatoren erkannt. Dies folgt der in der INCOSE-Systematik verankerten Unterscheidung zwischen imperativen und optionalen Formulierungen. Schwierig wird es bei kontextabhängigen Formulierungen wie „sollte nach Möglichkeit“ (ist das „soll“ oder „kann“?). Oder bei Passivkonstruktionen: „Die Einhaltung der Norm wird vorausgesetzt“ enthält kein explizites „muss“, ist aber eindeutig verpflichtend.
Normenreferenz-Extraktion: Identifikation von Standards wie „DIN EN 45545-2:2020+A1:2023“ inklusive Versionsnummer und Amendments. Auch hier ist die Trefferrate bei standardisierten Schreibweisen hoch. Aber Besteller schreiben manchmal „gem. Brandschutznorm“ ohne konkrete Normennummer. Oder verweisen auf „aktuelle Fassung“ einer Norm, was bei Vertragsabschluss eine andere sein kann als bei Angebotsabgabe.
Kontextuelle Anforderungsgrenzen: Wo endet eine Anforderung, wo beginnt die nächste? In Freitextdokumenten enthält ein einzelner Absatz manchmal mehrere implizite Anforderungen: „Das Fahrzeug muss die Streckenklasse D4 befahren können und dabei die Lärmgrenzwerte nach TSI Noise einhalten.“ Das sind technisch zwei unabhängige Anforderungen (Achslast und Lärm), verpackt in einen Satz.

Typischer Stolperstein: Abschnittsüberschriften vs. Anforderungen

In vielen Lastenheften stehen Abschnittsüberschriften (z. B. „3.2 Antriebskonzept“) in derselben Tabellenzeile wie reguläre Anforderungen, nur ohne ID und ohne Verbindlichkeit. Wenn das System diese Überschriften als Anforderungen interpretiert, entstehen Geisteranforderungen, die den gesamten Workflow belasten: sie werden Experten zugewiesen, klassifiziert und exportiert, obwohl sie keine echten Anforderungen sind. In einem typischen Lastenheft mit 800 Zeilen können so 50–100 Geisteranforderungen entstehen. Das reicht, um die Statistiken zu verfälschen und das Vertrauen der Fachexperten in das System zu zerstören.

Phase 2: Klassifizierungsvorschläge

Nach der Extraktion wird es inhaltlich: Jede Anforderung wird gegen die interne Wissensbasis abgeglichen. In der Praxis wird das heute typischerweise über eine RAG-Architektur (Retrieval-Augmented Generation) gelöst: Das System durchsucht Produktdatenblätter, Herstellerspezifikationen und Normenregister nach den relevantesten Passagen, übergibt diese zusammen mit der Anforderung an ein Sprachmodell und erhält einen Klassifizierungsvorschlag: OK, OKB, NOK, OKM oder R.

Warum RAG? Statt ein allgemeines Sprachmodell „frei antworten“ zu lassen (was zu Halluzinationen führt), wird das Modell auf konkrete Quelldokumente eingeschränkt. Es kann nur auf Informationen zugreifen, die tatsächlich in der Wissensbasis vorhanden sind, und muss seine Antwort mit Quellenreferenzen belegen. Das reduziert Halluzinationen. Eliminieren tut es sie nicht.

Die Qualität dieser Vorschläge variiert stark je nach Anforderungstyp:

Parametrische Anforderungen (Geschwindigkeit, Achslast, Gradient)0%

Standardanforderungen aus früheren Projekten0%

Normenanforderungen mit klarer Referenz (EN 50155, EN 45545)0%

Qualitative Anforderungen (Prozesse, Konzepte)0%

Neuartige Anforderungen ohne historisches Muster0%

Geschätzte Trefferquote der KI-Erstklassifizierung nach Anforderungstyp (qualitative Einschätzung basierend auf Praxiserfahrung, nicht als Benchmark zu verstehen). Aktuelle Forschung zur automatischen Anforderungsklassifizierung per NLP zeigt ähnliche Muster: F1-Scores von 0,73–0,84 je nach Methodenansatz (Nature Scientific Reports, 2024).

Wo es gut funktioniert

Parametrische Anforderungen sind der Sweet Spot: „Höchstgeschwindigkeit mindestens 100 km/h“ wird gegen das Produktdatenblatt abgeglichen (unser Wert: 100 km/h), die Vergleichslogik angewendet (≥ 100 → erfüllt), und das Ergebnis ist ein begründetes „OK“ mit Quellenreferenz. Das funktioniert, weil der Anforderungstyp eindeutig quantitativ ist, die Vergleichsoperation klar (≥, ≤, =) und die Quelldaten maschinenlesbar.

Beispiel: Parametrischer Abgleich

Anforderung: „Die Höchstgeschwindigkeit im Eigenfahrantrieb beträgt mindestens 100 km/h.“
SSOT-Quelle: Produktdatenblatt, P-001: Höchstgeschwindigkeit = 100 km/h
KI-Ergebnis: OK: „100 km/h gemäß Produktdatenblatt P-001. Anforderung ≥ 100 km/h erfüllt.“
Bewertung: Korrekt, belastbar, mit Quellenangabe.

Ähnlich gut funktioniert der Abgleich bei Normenanforderungen, wenn das interne Normenregister gepflegt ist: Die KI erkennt die Normenreferenz im Anforderungstext, sucht im Normenregister nach dem Compliance-Status und liefert die Klassifizierung samt Zertifikatsnummer.

Beispiel: Normen-Compliance-Abgleich

Anforderung: „Das Fahrzeug muss EN 50155:2017 für elektronische Betriebsmittel erfüllen.“
SSOT-Quelle: Normenregister: EN 50155:2017, Status: konform, Zertifikat Z-EL-2023-44
KI-Ergebnis: OK: „EN 50155:2017 wird erfüllt, nachgewiesen durch Zertifikat Z-EL-2023-44. Hinweis: Die aktuelle Fassung ist EN 50155:2024, Lastenheft referenziert ältere Version.“
Bewertung: Korrekt und mit wertvollem Zusatzhinweis zur Normenversion.

Wo es schwierig wird

Qualitative Anforderungen und neuartige Formulierungen sind die Schwachstelle. Wenn eine Anforderung lautet „Der Bieter muss ein Instandhaltungskonzept vorlegen, das den Lebenszyklus des Fahrzeugs über 30 Jahre abbildet“, kann die KI:

Erkennen, dass es um Instandhaltung geht (korrekt)
Den Subsystem-Bereich „Instandhaltung“ zuordnen (korrekt)
Den RAMS-Bezug herstellen, also dass die Anforderung die Maintainability-Dimension betrifft im Sinne der EN 50126 (RAMS) (korrekt)
Aber nicht bewerten, ob das Unternehmen ein solches Konzept hat oder erstellen kann (das hängt von internem Wissen ab, das selten vollständig dokumentiert ist)

In solchen Fällen ist „R“ (Rückfrage erforderlich) die ehrlichste Klassifizierung. Ein gutes KI-System sollte genau das vorschlagen, statt ein unbegründetes „OK“ zu halluzinieren. Die Forschung zu LLM-Halluzinationen zeigt das Problem: Sprachmodelle „lernen, konfident zu raten, statt kalibrierte Unsicherheit auszudrücken“. Bei der Anforderungsklassifizierung ist das gefährlich, weil ein falsches „OK“ direkte vertragliche Konsequenzen hat.

Die Anzahl der Anforderungen, die bei der Lastenheftbearbeitung kommentiert werden müssen, hat sich in den letzten zehn Jahren mindestens verzehnfacht.

– Manager eines Bremssystemherstellers, CONTACT Software Blog (2014)

Quelle: CONTACT Software, Bummelzug zum Anforderungsmanagement. Dieses Zitat stammt von 2014. Seitdem hat sich die Anforderungsdichte weiter erhöht. Aktuelle Fahrzeugausschreibungen umfassen regelmäßig 1.500–3.000 Anforderungen über alle Teillastenhefte hinweg.

Phase 3: Normen erkennen und verknüpfen

Die automatische Normenerkennung bringt in der Praxis den größten Zeitgewinn. Ein typisches Lastenheft für ein Schienenfahrzeug referenziert, direkt und indirekt, eine dreistellige Zahl von Normen. Das Normenökosystem der Bahntechnik wird auf europäischer Ebene von ERA (European Union Agency for Railways) über die Technischen Spezifikationen für die Interoperabilität (TSI) definiert und von CEN/CENELEC in harmonisierte europäische Normen umgesetzt.

Für einen Anbieter bedeutet das: Wenn ein Lastenheft „EN 45545-2“ fordert (Brandschutz), muss er nicht nur den Status dieser einen Norm kennen, sondern auch:

Die zugehörige TSI SRT (Safety in Railway Tunnels), die den regulatorischen Rahmen definiert
Die Prüfmethoden in EN 45545-1 (allgemeine Anforderungen)
Die Materialklassifizierungen nach EN 45545-2 (Brandverhalten)
Produktspezifische Zertifizierungen und deren Gültigkeitszeitraum

Die KI kann diese Verknüpfungen in vier Schritten sichtbar machen:

Erkennung

Normenkennungen (EN 45545-2, DIN EN 50155, ISO 12100) werden im Freitext erkannt, auch bei inkonsistenter Schreibweise wie „gem. 45545“ oder „Brandschutz nach EN45545“. Dabei werden auch informelle Referenzen aufgelöst: „TSI Noise“ wird als Verweis auf die TSI-Verordnung 1304/2014 (Lärm) erkannt.

Versionsprüfung

Die im Lastenheft referenzierte Version wird mit der aktuell gültigen Fassung verglichen. Veraltete Referenzen werden markiert (ein häufiger Streitpunkt bei Vergabeverfahren). Beispiel: EN 50155:2007 wurde durch EN 50155:2017 und schließlich EN 50155:2024 ersetzt. Welche Fassung gilt vertraglich?

Compliance-Abgleich

Der Compliance-Status aus dem internen Normenregister wird herangezogen: erfüllt (mit Zertifikat), nicht erfüllt, oder teilweise erfüllt. Bei produktspezifischen Normen wird der Status pro Produkt und pro Konfiguration geprüft.

Querverweisanalyse

Indirekt referenzierte Normen werden identifiziert. Wenn eine Anforderung EN 45545-2 fordert, verweist diese intern auf Prüfmethoden in EN 45545-1. Die CENELEC-RAMS-Normen (EN 50126, EN 50128, EN 50129) bilden eine eigene Verweiskette, die für sicherheitsrelevante Subsysteme vollständig abgebildet werden muss.

Der DIN-Normenausschuss Fahrweg und Schienenfahrzeuge (FSF) koordiniert die Erarbeitung und nationale Umsetzung von Bahnnormen. Die resultierende Normenlandschaft umfasst rund 50–60 relevante Standards für Schienenfahrzeuge. Als strukturierter Katalog ist das handhabbar, wenn es einmal erfasst und gepflegt wird. Das Problem ist die Dynamik: Normen werden novelliert, Amendments veröffentlicht, TSIs aktualisiert. Die ERA hat allein im Jahr 2025 mehrere aktualisierte TSI-Spezifikationen veröffentlicht, darunter die neue TSI Telematics, die am 2. März 2026 in Kraft tritt und erstmals Anforderungen an Datenqualität und Cybersecurity für den Schienenverkehr definiert.

Normenökosystem der Bahntechnik: Die wichtigsten Säulen

RAMS: EN 50126 (Zuverlässigkeit, Verfügbarkeit, Instandhaltbarkeit, Sicherheit) definiert den Lebenszyklusprozess für alle sicherheitsrelevanten Bahnanwendungen. Ergänzt durch EN 50128 (Software) und EN 50129 (Sicherheitsnachweise).
Brandschutz: EN 45545 (7 Teile) deckt Materialprüfung, Fahrzeugdesign und Betriebskonzepte ab.
Elektronik: EN 50155 definiert Anforderungen an elektronische Betriebsmittel auf Schienenfahrzeugen (Temperatur -40 bis +85 °C, Vibration, Spannungsunterbrechungen).
EMV: EN 50121 regelt die elektromagnetische Verträglichkeit zwischen Bahnsystemen und ihrer Umgebung.
TSI: Die Technischen Spezifikationen für die Interoperabilität der ERA definieren die verbindlichen Mindestanforderungen für den grenzüberschreitenden Bahnverkehr in der EU.

Phase 4: Experten-Routing-Vorschläge

Auf Basis der erkannten Thematik und Normenreferenzen kann die KI vorschlagen, welche Fachabteilung für jede Anforderung zuständig sein sollte. Laut dem Loopio 2025 RFP Response Trends Report berichten 48 % der Proposal-Teams branchenübergreifend von Schwierigkeiten bei der Zusammenarbeit mit Fachexperten. Automatisiertes Routing kann das zumindest teilweise abfangen.

In der Bahnindustrie ist das Routing-Problem ausgeprägt. Ein Lastenheft für ein Vollbahnfahrzeug adressiert 10–15 verschiedene Subsysteme, vom Fahrzeugkasten über Antrieb und Bremse bis zu Fahrgastinformation und Instandhaltungsdokumentation. Die zuständigen Fachexperten sitzen in verschiedenen Abteilungen, manchmal an verschiedenen Standorten. Ohne strukturiertes Routing verbringt der Angebotsmanager einen erheblichen Teil seiner Zeit damit, Anforderungen manuell den richtigen Personen zuzuordnen.

Gut automatisierbar

Schwer automatisierbar

Anforderungen mit eindeutigen Normenreferenzen → Fachabteilung direkt ableitbar (EN 45545 → Brandschutz, EN 50155 → Elektrotechnik)

Querschnittsanforderungen, die 2–3 Disziplinen gleichzeitig betreffen (z. B. Crashsicherheit: Struktur + Innenausbau + Sicherheitstechnik)

Subsystem-spezifische Anforderungen mit klaren Schlüsselwörtern (Motor, Bremse, ETCS, Fahrgastinformation)

Neuartige Anforderungen ohne historisches Muster (z. B. Wasserstoffantrieb, BEMU-Technologie, KI-Sicherheit nach EU AI Act)

Wiederholungsanforderungen aus früheren Lastenheften mit dokumentierter Zuordnung

Organisationsspezifische Zuordnungen, die vom LH-Standardschema abweichen (Besteller A ordnet Klimatisierung dem Wagenkasten zu, Besteller B der Fahrzeugtechnik)

Instandhaltungs- und Dokumentationsanforderungen (oft standardisiert und eindeutig zuordenbar)

Anforderungen, bei denen die richtige Zuordnung von der konkreten Produktkonfiguration abhängt

Wie die KI technisch arbeitet: RAG und Embedding-basierte Suche

Für Leser mit technischem Hintergrund lohnt ein Blick unter die Haube. Das Grundprinzip moderner KI-Systeme für die Lastenheftbearbeitung basiert auf einer Retrieval-Augmented-Generation-Architektur (RAG), die zwei Komponenten kombiniert:

Retrieval (Suche): Die Anforderung wird in einen numerischen Vektor (Embedding) umgewandelt und gegen eine Vektordatenbank der internen Wissensbasis abgeglichen. Das Ergebnis sind die 5–10 relevantesten Textpassagen aus Produktdatenblättern, Normenregistern und früheren Angeboten.
Generation (Bewertung): Ein Large Language Model (LLM) erhält die Anforderung zusammen mit den gefundenen Quelldokumenten und generiert einen Klassifizierungsvorschlag mit Begründung und Quellenreferenz.

Der Vorteil gegenüber einem „nackten“ LLM: Das System kann nur auf Informationen zugreifen, die tatsächlich in der Wissensbasis vorhanden sind. Wenn keine relevante Quelle gefunden wird, sollte das System ehrlich „R“ (Rückfrage) vorschlagen, statt eine plausibel klingende aber unbelegbare Antwort zu halluzinieren.

Warum RAG besser ist als Finetuning für diesen Anwendungsfall

Ein häufiges Missverständnis: „Wir trainieren die KI auf unsere Daten.“ In der Praxis ist Finetuning (Nachtraining des Modells) für die Lastenheftbearbeitung selten der richtige Ansatz. Die Wissensbasis ändert sich mit jedem Projekt, jeder Normenaktualisierung, jedem Produktupdate. RAG ermöglicht es, die Wissensbasis zu aktualisieren, ohne das Modell neu zu trainieren. Ein Update am Normenregister wirkt sich sofort auf alle zukünftigen Klassifizierungen aus.

Wo die KI an Grenzen stößt

Ein ehrlicher Blick auf die Grenzen ist wichtiger als jede Erfolgsmeldung. KI-Systeme in der Lastenheftbearbeitung stoßen heute an fünf systematische Grenzen:

1. Implizites Wissen

Das wertvollste Wissen in einem Unternehmen ist oft nicht dokumentiert. Wenn ein erfahrener Ingenieur weiß, dass eine bestimmte Anforderung bei einer früheren Ausschreibung zum Ausschluss geführt hat und deshalb eine strategische Antwort formuliert, hat die KI keinen Zugang zu dieser Information. Sie sieht nur die Dokumente, die ihr zur Verfügung gestellt werden. Dieses „Tacit Knowledge“ spielt in der Bahnindustrie eine große Rolle, weil die Community überschaubar ist. Erfahrene Angebotsmanager kennen die Präferenzen und Bewertungsmaßstäbe spezifischer Besteller aus jahrelanger Zusammenarbeit.

2. Strategische Bewertung

Die Klassifizierung einer Anforderung als NOK ist manchmal eine strategische Entscheidung, keine rein technische. Erfahrene Angebotsmanager formulieren gezielt Rückfragen, um Anforderungen zu „entschärfen“, etwa indem sie den Besteller fragen, warum eine Anforderung strenger als die zugrunde liegende Norm ist. Oder sie nutzen die Gelegenheit, eine innovativere Alternative vorzuschlagen, die den Besteller überzeugt. Diese Art der strategischen Kommunikation liegt außerhalb der KI-Fähigkeiten.

3. Dokumentenqualität

Die Qualität der KI-Ergebnisse hängt direkt von der Qualität der internen Dokumente ab. Veraltete Produktdatenblätter, unvollständige Normenregister oder widersprüchliche Herstellerspezifikationen führen zu fehlerhaften Klassifizierungsvorschlägen. Das Prinzip „Garbage in, garbage out“ gilt uneingeschränkt. Das Paradoxe: Unternehmen, die ihre Dokumentation gut pflegen, hätten KI-Unterstützung am wenigsten „nötig“. Und die, die sie am meisten bräuchten, haben die schlechteste Datengrundlage.

4. Fehlender Verhandlungskontext

Ein Lastenheft ist kein statisches Dokument. Es ist der Ausgangspunkt einer Verhandlung. Die zweite Revision wird andere Anforderungen enthalten als die erste, basierend auf dem Feedback aller Bieter. Die KI kann die aktuelle Version verarbeiten, aber sie kann nicht antizipieren, welche Anforderungen der Besteller voraussichtlich lockern wird. Diesen Instinkt entwickeln erfahrene Angebotsmanager aus jahrelanger Zusammenarbeit mit bestimmten Bestellern.

5. Das Halluzinationsrisiko

Auch mit RAG-Architektur besteht das Risiko, dass das Sprachmodell Zusammenhänge herstellt, die nicht existieren. Oder Quelldokumente so interpretiert, dass sie die Anforderung scheinbar erfüllen, obwohl bei genauer Betrachtung wesentliche Unterschiede bestehen. Ein aktueller Survey zu LLM-Halluzinationen beschreibt das Problem: Sprachmodelle sind darauf optimiert, plausible Antworten zu generieren, nicht, kalibrierte Unsicherheit auszudrücken. In einem Angebotsprozess, in dem jede Klassifizierung eine vertragliche Zusage impliziert, ist das ein reales Risiko.

Der richtige Einsatz: KI als qualifizierter Erstvorschlag

KI in der Lastenheftbearbeitung funktioniert am besten als qualifizierter Erstvorschlag. Die KI liefert für 70–80 % der Anforderungen einen plausiblen Klassifizierungsvorschlag mit Quellenreferenz. Der Fachexperte validiert, korrigiert oder bestätigt, aber er startet nicht bei null. Die Zeitersparnis entsteht durch weniger Sucharbeit, nicht durch weniger Experten. In der Forschung wird dieser Ansatz als „Human-AI Collaboration“ (HAIC) bezeichnet. Laut einer aktuellen Studie zu AI in Requirements Engineering dominiert HAIC mit 54 % aller RE-Techniken, während volle KI-Automatisierung nur 5 % ausmacht.

Was sich verändert: Der Workflow mit und ohne KI

Ohne KI-Unterstützung

Mit KI-Unterstützung

Angebotsmanager liest jede Anforderung und ordnet manuell zu (2+ Wochen für 800 Anforderungen)

KI liefert Erstklassifizierung und Routing-Vorschlag für alle Anforderungen als Ausgangsbasis für das Expertenreview

Fachexperte sucht selbst in Produktdatenblättern und Normenregistern, oft in unstrukturierten Dateiablagen

Fachexperte erhält Quellenreferenzen und relevante Dokument-Auszüge vorab. Die Sucharbeit entfällt

Normenreferenzen werden manuell identifiziert. Versionskonflikte fallen spät auf, manchmal erst beim Besteller-Review

Normenreferenzen automatisch extrahiert, mit Normenregister abgeglichen und auf Aktualität geprüft. Versionskonflikte werden sofort sichtbar

Keine systematische Wiederverwendung von Antworten aus früheren Projekten. Jedes Angebot startet von vorn

Ähnliche Anforderungen aus früheren Projekten werden automatisch identifiziert, inkl. damaliger Klassifizierung und Begründung

Konsistenzprüfung über Subsysteme hinweg nur durch aufwendige Review-Schleifen mit allen Fachexperten im Raum

Automatische Warnungen bei widersprüchlichen Klassifizierungen zwischen Subsystemen. Konsistenzprüfung in Echtzeit

Laut dem Loopio 2025 RFP Response Trends Report nutzen branchenübergreifend bereits 68 % der Proposal-Teams generative KI (eine Verdopplung gegenüber 34 % im Jahr 2023). 65 % setzen spezialisierte RFP-Software ein (gegenüber 48 % im Vorjahr), und die durchschnittliche Win-Rate liegt bei 45 %. Die Bahnindustrie, die beim digitalen Anforderungsmanagement traditionell zurückhaltender ist, steht hier noch am Anfang. Laut Bidara liegt die Content-Wiederverwendungsrate branchenübergreifend bei 66 %. Die meisten Bahnunternehmen schöpfen dieses Potenzial mangels durchsuchbarer Wissensbasis nicht aus. Plattformen wie Tendric setzen hier an, indem sie die Wissensbasis projektübergreifend aufbauen und durchsuchbar machen.

Fazit

Was passiert, wenn KI ein Lastenheft liest? Sie erledigt die Routinearbeit: Extraktion, Strukturierung, Parameterabgleich, Normenerkennung. Schneller und vollständiger als ein manueller Prozess. Für 70–80 % der Anforderungen liefert sie einen brauchbaren Erstvorschlag mit Quellenreferenz. Bei den restlichen 20–30 %, den strategischen, qualitativen und neuartigen Anforderungen, markiert sie korrekt ihre Unsicherheit und übergibt an den menschlichen Experten.

Das ist kein Versagen, das ist der Punkt. Die KI gibt dem Fachexperten die Freiheit, sich auf die Anforderungen zu konzentrieren, bei denen sein Urteil tatsächlich den Unterschied macht. Statt Stunden mit der Suche in Produktdatenblättern zu verbringen. Die INCOSE-Arbeitsgruppe für AI Systems nennt das „AI for SE“: KI zur Unterstützung von Systems-Engineering-Prozessen.

Die nächste Aufgabe sind nicht bessere Modelle. Es sind gepflegte Normenregister, aktuelle Produktdatenblätter, durchsuchbare Archive früherer Angebote. Werkzeuge wie Tendric adressieren genau diesen Punkt: Sie schaffen die strukturierte Datenbasis, auf der KI-gestützte Klassifizierung überhaupt erst zuverlässig funktioniert.

Key Takeaways

Anforderungsextraktion aus strukturierten Excel-Dateien: 90 %+ Erkennungsrate. Bei PDFs deutlich weniger (60–75 %). Aktuelle PDF-Parsing-Benchmarks zeigen: Selbst spezialisierte Tools erreichen bei Tabellen maximal ~98 % Genauigkeit. Manuelle Stichprobenprüfung bleibt Pflicht.
Parametrische Anforderungen (Geschwindigkeit, Achslast, Gradient) werden am zuverlässigsten klassifiziert. Qualitative Anforderungen (Konzepte, Prozesse) bleiben die Schwachstelle. NLP-Forschung zeigt F1-Scores von 0,73–0,84 für automatische Anforderungsklassifizierung.
Die automatische Normenerkennung bringt den größten Zeitgewinn: Extraktion, Versionsprüfung und Compliance-Abgleich in einem Schritt, über das gesamte CENELEC/TSI-Normenökosystem hinweg.
Fünf systematische Grenzen: implizites Wissen, strategische Bewertung, Dokumentenqualität, fehlender Verhandlungskontext und das Halluzinationsrisiko von Sprachmodellen.
KI funktioniert am besten als qualifizierter Erstvorschlag (Human-AI Collaboration): 70–80 % der Anforderungen mit plausiblem Vorschlag, 20–30 % markiert als unsicher. Der Experte validiert. HAIC dominiert mit 54 % aller RE-Techniken.
68 % der Proposal-Teams nutzen bereits KI (Loopio 2025), 65 % setzen spezialisierte RFP-Software ein. Die Bahnindustrie steht bei der Adoption noch am Anfang, hat aber durch hohe Anforderungsdichten und die Normenlandschaft das größte Potenzial.

tendric Redaktion

Das tendric-Team entwickelt KI-gestützte Werkzeuge für die Ausschreibungsbearbeitung in der Industrie. Wir schreiben über Best Practices, Branchentrends und die Zukunft des Angebotsmanagements.

Wollen Sie tendric in Aktion sehen?

Vertrieb kontaktieren