Wahrscheinlichkeitskonzepte und Verteilungen

Gliederung

Entwicklung eines Wahrscheinlichkeitsmodells

Um ein System analysieren, testen oder optimieren zu können, ist es häufig von Vorteil, dieses als Modell abzubilden. Eine wichtige Voraussetzung dafür ist es, ein Wahrscheinlichkeitsmodell über alle möglichen Ereignisse zu entwickeln. Experimente am realen System und die Aufnahme aller Ergebnisse bilden die Grundlage für eine Modellformulierung. Aus dem aufgestellten Modell werden nun allgemeine Aussagen getroffen, die anhand des realen Systems überprüft werden. Bestehen meßbare Unterschiede, muß das Modell überarbeitet werden. 

Es existieren kaum reale Phänomene, die vollständig deterministisch sind. . Es ist also notwendig, diese Werte in Simulationsmodellen als stochastische Größen darzustellen. Auch die Ermittlung von Meßwerten, die als Basis für im Modell dargestelltes Zahlenmaterial dienen, können in starkem Maße von z.B. den Beobachtungszeitpunkten oder anderen Faktoren abhängen. Obwohl diese Variationen zufallsabhängig erscheinen oder gar vollständig zufällig sind, ist es notwendig, diese in einem mathematischen Beschreibungsmodell darzustellen. Diese Abbildung des Verhaltens stochastischer Größen, die meist durch Experimentieren gewonnen wird, geschieht durch Wahrscheinlichkeitsverteilungen. Während einer Simulation werden mit Hilfe generierter Zufallszahlen (Pseudo-Zufallszahlen)die Stichproben, die in der Realität zufallsabhängig sind, gebildet.

Wahrscheinlichkeit, Ereignis, Zufallsexperiment

„Ein zufälliges Experiment [(Zufallsexperiment)]oder ein Versuch
ist ein Vorgang, bei dem verschiedene Ausgänge [(mindestens zwei)]
möglich sind, so daß man vorher nicht sagen kann, welcher
[konkrete]Ausgang eintreten wird.“
(Bronstein, Semendjajew: Taschenbuch der Mathematik, 23. Auflage, Thun, Frankfurt/Main 1987, S. 655)

Ein Zufallsexperiment ist somit ein Vorgang,

     Beispiel eines Zufallsexperiments:"Werfen einer Münze"

Durch mehrfaches Experimentieren kann jedem der möglichen Ereignisse ein Maß der Unsicherheit oder Sicherheit seines Eintreffens zugeordnet werden. Bei steigender Zahl von Experimenten tendiert dieses relative Häufigkeit genannte Maß gegen einen bestimmten Wert. Dieser Wert heißt Wahrscheinlichkeit des Eintritts dieses Ereignisses. Das Wahrscheinlichkeitsmodell (stochastisches Modell) eines Experimentes ist die Zusammenfassung aller möglichen (Elementar-)Ereignisse mit ihren zugehörigen Wahrscheinlichkeiten.

Ergebnisse von Zufallsexperimenten sollten immer auf numerische Variablen abgebildet werden. Als Zufallsvariablen werden solche numerischen Variablen
bezeichnet, deren Wert durch den Ausgang eines Zufallsexperimentes bestimmt wird. Die Menge aller möglichen (Elementar-) Ereignisse heißt Ergebnisraum und
wird mit W bezeichnet. Eine Zufallsvariable X ist dann eine Funktion mit dem Ergebnisraum als Definitionsbereich und einer Teilmenge der reellen Zahlen als
Wertebereich X: W => R. Eine Zufallsvariable, die abzählbar viele Werte annehmen kann, heißt diskret; eine, die überabzählbar viele Werte annehmen kann, stetig.

Mögliche Ereignisse sind alle möglichen (zulässigen) Teilmengen des Ergebnisraumes, also

Unter Komplement eines Ereignisses E wird die Menge von Elementen, die in W, aber nicht in E enthalten ist, verstanden. Am Beispiel "Werfen einer Münze" kann man die Definition verdeutlichen:

Häufig sind auch sog. zusammengesetzte Ereignisse von Interesse, beispielsweise das "Werfen zweier Würfel":

Da es sich hier um Mengen handelt, sind auch alle üblichen Mengenoperationen zulässig. Die wichtigen Operationen im Zusammenhang mit Ereignissen sind Schnitt und Vereinigung von Mengen.

Zur Verdeutlichung diene wiederum obiges Beispiel:

Seien E1 und E2 zwei Ereignisse eines Zufallsexperiments. Dann ist die Wahrscheinlichkeit, daß E1 eingetroffen ist, wenn bekannt ist, daß E2 eingetroffen ist, die bedingte Wahrscheinlichkeit P(E1 \ E2).

Hier sind noch ein Mal die wichtigsten Regeln zusammengefaßt:

Datenanalyse: Wahrscheinlichkeitsverteilungen

Grundsätzlich lassen sich theoretische und nichttheoretische Wahrscheinlichkeitsverteilungen unterscheiden. Jede dieser Unterarten läßt sich wieder differenzieren, ob sie diskrete oder kontinuierliche Verteilungen sind.

Nichttheoretische bzw. empirische Verteilungen

Hier hat der beobachtete Verlauf normalerweise einmalige Eigenschaften. Die Wahrscheinlichkeiten werden nicht von einem vorher entwickelten mathematischen Ausdruck beschrieben. Je nachdem, ob es sich um kontinuierliche oder diskrete Verteilungen handelt, werden die Stichproben auf unterschiedliche Art ermittelt.

Nichttheoretische diskrete Verteilungen

 In diesem Fall kann die Zufallsvariable nur eine endliche Anzahl unterschiedlicher Werte annehmen. Diese Werte können direkt mit ihren jeweiligen relativen Wahrscheinlichkeiten (ungleich 0) angegeben werden. Die Ermittlung von Stichproben kann möglicherweise so ablaufen:

Jedem möglichen Variablenwert werden ganzzahlige Zufallszahlen (Integer-Random-Variablen) zugewiesen, so daß die Anzahl dieser Variablen proportional zur Wahrscheinlichkeit des Wertes ist.

Beispielsweise kann man in einem Lagerhaltungssystem auf diese Weise das Lieferantenverhalten abbilden. Ein Lieferant hat bisher alle seine Ware innerhalb von drei Tagen angeliefert. Die Häufigkeitsverteilung zeigt, welche tatsächlichen Lieferzeiten dieses Lieferanten in der Vergangenheit tatsächlich aufgetreten sind. Daraus werden die relativen Häufigkeiten, also die Häufigkeit in jeder Kategorie dividiert durch die Gesamtzahl der Beobachtungen, ermittelt. Wenn angenommen werden kann, daß diese relativen Häufigkeiten in der Zukunft ebenfalls gültig sind, der Lieferant also sein Verhalten nicht ändert, kann diese relative Häufigkeit als Wahrscheinlichkeit dieser Lieferzeit betrachtet werden.

Nehmen wir an, obiger Lieferant

Dann sind die relativen Häufigkeiten für die Lieferung

Werden nun 100 Zufallszahlen zwischen 0 und 99 generiert, dann können z.B.

Analaog kann man auch mit (quasi-) kontinuierlichen Random-Variablen zwischen 0 und 1 verfahren:

 0 <= r < 0,4 => 1
 0,4 <= r < 0,8 => 2
 0,8 <= r < 1 =>3

Nichttheoretische kontinuierliche Verteilungen

Hier kann die Zufallsvariable eine unendliche Zahl möglicher Werte annehmen. Beispiele aus der betriebswirtschaftlichen Modellierung hierfür sind Zeiträume, z.B. die Lebensdauer eines Maschinenteils, oder räumliche Distanzen, z.B. zurückgelegte Wege in Fließbandsystemen.

Die Wahrscheinlichkeiten können nicht durch einfaches Aufzählen der Alternativen gewonnen werden, da die Wahrscheinlichkeit, daß die Zufallsvariable einen bestimmten Wert annimmt, gleich Null ist. Demgegenüber ist die Wahrscheinlichkeit, daß sie irgendeinen Wert im Intervall annimmt, gleich Eins. Daher wird mit sogenannten kumulativen Wahrscheinlichkeiten gearbeitet.
Die Dichtefunktion P(x) einer Verteilung

Die kumulative Wahrscheinlichkeitsfunktion C(x) / Verteilungsfunktion gibt an, wie groß die Wahrscheinlichkeit ist, daß die Zufallsvariable einen Wert annimmt, der kleiner oder gleich x ist. Mit steigendem x nähert sich C(x) asymptotisch an 1 an. Dabei gilt:

 

Betrachten wir z.B. die Wahrscheinlichkeit, daß ein Bauteil bis zu einem bestimmten Zeitpunkt ausfällt. Die Wahrscheinlichkeit, daß das Bauteil im ersten Jahr ausfällt, beträgt 0.5, daß es während der ersten drei Jahre ausfällt, 0.9 usw. Dann kann man folgenden Graphen ermitteln:

Zur Stichprobenbildung aus kumulativen Wahrscheinlichkeitsverteilungen wird folgendermaßen gearbeitet:

In unserem Beispiel bedeutet dies:

Zufallszahl 0.75 => Einsatzdauer 2 Jahre 
Zufallszahl 0.4 => Einsatzdauer 0.8 Jahre

Theoretische Verteilungen

Für theoretische Verteilungen existieren mathematische Modelle, mit denen im Vorhinein die Wahrscheinlichkeiten für das Eintreten bestimmter Ereignisse ermittelt werden kann. Je nachdem, ob kontinuierliche oder diskrete Verteilungen vorliegen, kommen unterschiedliche Methoden zum Einsatz.

Theoretisch – Diskret

Bernoulli -Verteilung

Zur Beschreibung von Situationen mit zwei sich gegenseitig ausschließenden Ergebnissen (z.B. „Erfolg“ oder „Mißerfolg“) unter Verwendung einer Zufallsvariablen x wird normalerweise die Bernoulli-Verteilung verwendet. „Erfolg“ und „Mißerfolg“ bedeuten dabei keine Bewertung des Ergebnisses, sondern stellen nur die Seite der Betrachtung dar. Wird beispielsweise im Rahmen der Qualitätskontrolle geprüft, ob die Produkte fehlerhaft sind oder nicht, kann durchaus der „Erfolg“ im Sinne der Bernoulli-Verteilung die Fehlerhaftigkeit sein. Ähnliches kann man bei der Kontrolle von Konten der Buchführung (korrekt oder nicht korrekt) anführen.

Wird die Wahrscheinlichkeit für einen Erfolg im Sinne des Tests (x=1) mit p und entsprechend die Wahrscheinlichkeit für einen Mißerfolg (x=0) mit p-1 bezeichnet (0 <=  p <= 1), dann ergibt sich:

Sind zum Beispiel 60% der geprüften Produkte fehlerhaft und wird ein fehlerhaftes Produkt mit x=1 (Erfolg) vermerkt, dann ist P(x=1) = 0.6 und P(x=0) = 0.4. Graphisch stellt sich eine Bernoulli-Verteilung für p=0.6 folgendermaßen dar:

Die Stichprobenbildung für Bernoulli-Verteilungen ist sehr einfach. Eine Zufallszahl zwischen 0 und 1 wird generiert und mit den Wahrscheinlichkeitswerten verglichen. Der entsprechende Wert der Zufallsvariablen wird dann abgelesen:

Zufallszahl 0.39 => 0 (Produkt in Ordnung)
Zufallszahl 0.41 => 1 (Produkt fehlerhaft)

Binomial -Verteilung

Werden eine Reihe unabhängiger Bernoulli-Tests durchgeführt, erhält man die Binomial-Verteilung. Unabhängigkeit bedeutet dabei, daß z.B. bei der Prüfung in der Qualitätskontrolle die bereits geprüften Produkte wieder in die Testmenge zurückgeführt werden (Ziehen mit Zurücklegen). Es wird dabei z.B. nach der Wahrscheinlichkeit dafür gefragt, daß bei einer Stichprobe von fünf Produkten genau ein fehlerhaftes Produkt gefunden wird. Es wird also fünfmal hintereinander ein Produkt ausgewählt und anschließend wieder zurückgelegt. Ist  n die Anzahl der Versuche,       p die Erfolgswahrscheinlichkeit bei jedem beliebigen Versuch und      x die Anzahl der Erfolge bei n Versuchen, ergibt sich die Formel:

Für das Beispiel aus der Qualitätskontrolle mit 50% Fehlerwahrscheinlichkeit, also p=0.5, n=5 Produkten und x=1, also daß genau ein fehlerhaftes Produkt gefunden wird, gilt dann:

Graphisch sieht eine Binomial-Verteilung P(x) für n=5, p=0.5 folgendermaßen aus:

Stichproben werden gebildet, indem n Bernoulli-Tests durchgeführt und anschließend addiert werden.

Poissonverteilung

Im Gegensatz zu Bernoulli- und Binomial-Verteilung, die sich mit gegenseitig ausschließenden Ereignissen beschäftigen, beschreibt die Poisson-Verteilung das Eintreffen voneinander unabhängiger, gleichartiger Ereignisse in einem Zeitraum, z.B. Maschinenausfälle, Anrufe oder Kundenankünfte.

Typischer Anwendungsbereich ist daher auch die Modellierung von Ankünften in Warteschlangen. Ursprünglich wurde diese Verteilung entwickelt, um das Eintreffen von Telefonanrufen an einem Switchboard (Schalttafel) zu modellieren. Ist beispielsweise bekannt, daß durchschnittlich alle 5 Minuten zwei Kunden an einen Ticketschalter kommen, kann die Wahrscheinlichkeit ermittelt werden, daß in demselben Zeitintervall genau 3 Kunden am Schalter erscheinen.

Ist l die durchschnittliche Anzahl pro Intervall und x die konkrete Anzahl im Intervall, zeigt sich folgende Formel:

   

 
Für das obige Beispiel (l = 5, x = 3) ergibt sich: 
 

Um Stichproben zu erhalten, muß man zunächst unter Zuhilfenahme der (kontinuierlichen) negativen Exponentialverteilung die Ankünfte in den Intervallen simulieren und anschließend die Zahl der Ankünfte im Zeitintervall zählen.

Geometrische Verteilung

Theoretisch - Kontinuierlich

Analog zu den nicht-theoretischen, kontinuierlichen Verteilungen ist auch hier die Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses gleich Null. Es wird also ebenfalls mit Dichtefunktionen und kumulativen Verteilungsfunktionen gearbeitet.

Stichproben für Gleichverteilungen mit beliebigen Parametern a und b können aus Zufallszahlen rzwischen 0 und 1 mit folgender Formel gebildet werden:

x = a + r (b - a)

Für a=1, b=3 und r=0.73 gilt dann: x = 1 + 0.73 (3-1) = 2.46

(Negative) Exponentialverteilung

  • ist eine der wichtigsten kontinuierlichen Verteilungen .

Da im allgemeinen Zeitmessungen in guter Näherung exponentialverteilt sind, werden Zeitintervalle zwischen unabhängigen Ereignissen meist mit der Exponentialverteilung modelliert. Dies sind z.B. Zwischenankunftszeiten von Fertigungsaufträgen, Dauer von Telefongesprächen oder die Zeit zwischen Maschinenausfällen.

  • kommt insbesondere bei der Modellierung von Warteschlangensystemen zur Anwendung.

Wenn die Ankunft (z.B. von Kunden) in einem System Poisson-verteilt ist, kann die Zeit zwischen den einzelnen Ankünften mit der (negativen) Exponentialverteilung modelliert werden.

Kommen beispielsweise in einem Zeitintervall von 5 Minuten 2 Kunden an einem Ticketschalter an ( l = 2 ), dann kann mit Hilfe der Exponentialverteilung die Frage beantwortet werden, wie groß die Wahrscheinlichkeit ist, daß nach 4 Minuten irgendwann in dem betrachteten Zeitintervall bereits ein Kunde erschienen ist.

Ist l die durchschnittliche Anzahl von Ankünften pro Zeiteinheit (Intervall), dann liegt der Erwartungswert der zwischen den einzelnen Ankünften vergehenden Zeit m =1/l mit einer Standardabweichung von ebenfalls s = 1/l und einer Varianz von s2 = 1/l2. Dann lautet die Dichtefunktion der Exponentialverteilung  Daraus ergibt sich die kumulative Verteilungs-funktion C ( x )
 P( x ) = le-lx  C( x ) = 1 - e-lx

C(x) gibt dann zum Beispiel die Wahrscheinlichkeit an, daß alle durch Stichprobenbildung generierten Intervalle kleiner oder gleich einem Intervall der Länge x · 5 Minuten ist. Je größer x ist, desto größer ist natürlich auch diese Wahrscheinlichkeit. C(x=0,8) ist dann die Wahrscheinlichkeit, daß für einbeliebiges Intervall i zwischen der Ankunft zweier Kunden gilt: i =< 0,8·5 Minuten.Die Stichproben werden aus Zufallszahlen r mit folgender Formel gebildet, wenn x die Anzahl der Zeiteinheiten bis zur nächsten Ankunft ist: Ist z.B. l = 2, r = 0,4 und die Zeiteinheit = 5 Minuten, dann ist und die Zeit in Minuten ist x · Zeiteinheit = 0,2505 · 5 Minuten = 1,25 Minuten

Normalverteilung

  • ebenfalls sehr häufige kontinuierliche Verteilung,
  • bekannt durch ihre "Glockenkurve",
  • stellt die Grenzverteilung der Binomialverteilung dar und
  • tritt bei Experimenten in der Praxis sehr häufig auf.

Deshalb wird sie auch bei Simulationen sehr vielfältig eingesetzt, z.B. bei der Beschreibung von Meßfehlern, Variationen in menschlichen Eigenschaften wie Größe oder Gewicht, oder der Beschreibung von Testergebnissen.

Ist m der Erwartungs- oder Mittelwert, s die Standardabweichung und s2 die Varianz, dann lautet die Dichtefunktion: Da die Formel der Normalverteilung nicht exakt integriert werden kann, können Stichproben nicht einfach aus der kumulierten Wahrscheinlichkeitsverteilung gewonnen werden. Deswegen müssen andere Methoden zur Stichprobenermittlung verwendet werden. Eine der am häufigsten verwendeten ist die Box-Muller-Methode:

  • Weitere kontinuierliche Verteilungen

  •  
    Folgende kontinuierlichen Verteilungen, die auch in Simulationsmodellen Verwendung finden, aber hier nicht näher betrachtet werden, sind:

    • Dreiecksverteilung
    • Gammaverteilung
    • Betaverteilung
    • Erlang-Verteilung
    • Weibull-Verteilung
    • Lognormal-Verteilung
    • Pearson-Verteilung

    Für eine ausführliche Betrachtung dieser und anderer Verteilung wird auf die einschlägige Literatur der Wahrscheinlichkeitsrechnung verwiesen ( u.a. Schwarze "Statistik", Band II )