Ergebnisgenauigkeit

Fragen der Ergebnisgenauigkeit:

Beispiel link zu Hit-or-Miss-Monte-Karlo

Generelle Voraussetzung zu diesem Kapitel ist, daß aus einer Grundgesamtheit G mit dem Erwartungswert und der Varianz (die meistens unbekannt sind) eine einfache Stichprobe bzw. mehrere Stichproben vom Umfang n mit X1,...,Xn als zugehörigen Stichprobenvariablen gezogen wird bzw. werden.

Bei einer großen Zahl von Stichproben schwanken die Ergebnisse beträchtlich. Um eine brauchbare Schätzung zu bekommen, macht man mehrmalige Wiederholungen. Die Idee dabei ist: Anstatt einen unbekannten Parameter  durch einen einzigen Wert  zu schätzen(z.B. den Erwartungswert Wert m durch den Mittelwert  einer Stichprobe), von dem man höchstens weiß, daß er meist in der Nähe von  liegt, möchte man oft lieber einen möglichst kleinen Bereich angeben, in dem der gesuchte Parameter zu finden ist. Da man die Informationen über  durch ein Zufallsexperiment erhält, ist es natürlich i.a. unmöglich, ein Verfahren anzugeben, das immer so einen Bereich liefert. Es gibt jedoch Methoden, die nur mit einer kleinen Wahrscheinlichkeit Bereiche liefern, die den unbekannten Parameter  nicht enthalten. Ist diese Irrtumswahrscheinlichkeit höchstens gleich a , erhalten wir also mit einer Wahrscheinlichkeit von mindestens einen Bereich, in dem der unbekannte Wert liegt, so nennt man einen mit dieser Methode gewonnen Bereich Konfidenzbereich zum Niveau . Ist dieser ein Intervall, so spricht man von einem Konfidenzintervall zum Niveau

Um Intervallschätzungen für  durchzuführen, wird vorausgesetzt, daß  wenigstens näherungsweise normalvertelt ist. Das ist der Fall, wenn

Genererell bestimmt man ein Konfidenzintervall für  mit den folgenden Grenzen:  ,

entnimmt man der Tabelle der Standardnormalverteilung oder der Student-Verteilung (t-Werte) zu der vorgegebenen Konfidenzzahl. Dabei verwendet man nur dann die Studentverteilung, wenn X näherungsweise normalverteilt und seine Varianz unbekannt ist und n < 30 ( Anzahl Stichproben) beträgt. An dieser Stelle noch anzumerken, wenn die Verteilung von X unbekannt ist und n < 30, dann gibt's keine Möglichkeit einen Konfidenzintervall anzugeben.

Beispielberechnung:

und , die normalweise unbekannt sind, werden an dieser Stelle nur für die Generierung von Zufallszahlen benutzt,

Parameter:

:     :    Wahrscheinlichkeit ():

Matrixgröße:

von: bis: schritt:

 

Ergebnisgenauigkeit

Bei gegebener Vertraunswahrscheinlichkeit  kann man durch die Wahl eines geeigneten Stichprobenunfangs n stets erreichen, daß die Länge des Konfidenzintervalls höchstens gleich einem vorgegebenen Wert L ist, nämlich durch die Wahl

Eine Halbierung der Länge des Konfidenzintervalls erfordert beispielweise eine Vervierfachung des Stichprobenumfangs. Auch kann die Breite eines Konfidenzintervalls verringert werden durch Verlängerung der Simulationslaufes oder mehrfache unabhängige Laufwiederholungen.

Verlängerung der Simulationslaufes

In der stationären Simulation wird die Schätzgenauigkeit i.d.R. durch die Verlängerung des Laufes verbessert . Die Zahl der Beobachtungen in steady-state wird in m gleiche Teile (batches) von Umfang n aufgespalten (xij: i-te Beobachtung im j-ten Batch). Der Mittelwert jedes Intervalls wird als unabhängiges Datum betrachtet ( link zu batch means-Methode). Dazu muß der Lauf lang genug sein, um noch in genügend viele Intervalle zerlegt werden zu können. Die Größe des Intervalls hängt stark vom Grad der Korrelation ab; gehen wir beispielweise davon aus, daß ein Datum immer die nächsten drei bis fünf Daten beeinflußt, sollte das Intervall zumindest mehr als fünf daten beinhalten. Große Intervalle führen zu kleinen Abhängigkeiten.

Mittelwert jedes Abschnittes: 
Schätzer für den wahren Parameter m ist das Gesamtmittel (grand mean):
Bandbreite eines Konfidenzintervalls für den wahren Parameter wird aus der Varianz der batch means abgeleitet.
Man berechnet da die Standardabweichung des grand mean durch geschätzt wird.
Dadurch wird das Konfidenzintervall zum Niveau g für den stationären Erwartungswert von X formuliert
(tm-1,g ist das Fraktil der t-Verteilung mit m-1 Freiheitsgraden):

Auswirkung der Simulationslänge
Der simulierte Wert soll in einer Genauigkeit von 15 Einheiten und 95% Konfidenz bestimmt werden
(Normalverteilung oder N30 = geschätzte Mittelwerte sind normalverteilt):

 

Stichprobe Mittelwert  U-L 
100  197.63  156.01  239.24  83.23 
200  202.40  174.50  230.30  55.80 
300  220.45  195.50  245.06  49.22 
400  219.65  198.50  240.87  42.37 
500  219.05  200.11  238.00  37.89 
600  216.08  198.02  240.87  42.37 
700  219.97  202.99  236.96  33.97 
800  222.01  206.27  237.75  31.48 
900  222.26  207.14  237.39  30.25 
1000  220.60  206.63  234.57  27.94 

Unabhängige Laufwiederholungen

Mehrfache Durchführung unabhängiger Läufe stellt eine Alternative zu langen Simulationen dar (insbesondere wenn hohe Korrelationen zwischen batches nicht ausgeschaltet werden können):

 

rechentechnisch geht man analog dem batching vor
Nachteil: die Anlaufphase wird m-mal eliminiert (u.U. Ressourcenverschwendung)

Verfahren der Varianzreduktion

Eine "künstliche" Reduktion der Varianz kann durch den Versuchsaufbau erreicht werden.

Ziel: Genauigkeit der Schätzungen der Erwartungswerte von performance measures, die jedoch unverzerrt bleiben sollen.
Sinnvoll, wenn nur der Erwartungswert von Interesse ist
Methoden dazu:

Antithetische Zufallsgrößen

Additionssatz für Varianzen: V(X + Y) = V(X) + V(Y) + 2 Cov(X,Y). Falls X und Y negativ korreliert sind gilt: (Cov(X,Y) < 0), folgt V(X + Y) < V(X) + V(Y).
Prinzip: Es werden zwei negativ korrelierte Outputzeitreihen mit den Einzelbeobachtungen xij und yij (i-te Beobachtung aus dem j-ten batch bzw. Wiederholung), die gleichen Erwartungswert und gleiche Varianz besitzen.
Die Mittelwerte  und  sind negativ korreliert und haben den gleichen Erwartungswert m, der abgeschätzt werden soll.
Auch die Varianzen der Mittelwerte sind identisch: 
Mit Hilfe von und wird eine neue Variable gebildet: 
mit der Absicht, zufallsbedingte Täler der ersten Outputreihe von gegenläufigen Bewegungen in der zweiten Ergebnisreihe kompensieren zu lassen.
Auch für gilt: 
Für die Varianz von gilt:  
Wegen der Identität der Varianzen gilt:  
Liegt eine negative Korrelation zw. X und Y vor, so gilt  daraus folgt: 
Schätzt man die Varianz des grand mean über die Varianz von ab, ergibt sich daher: 
Was besagt dieses Ergebnis?
Wären die Ausprägungen yij der zweiten Outputreihe durch unabhängige Wiederholungen oder Laufverlängerung der Zeitreihe xij zustande gekommen, hätten wir zur Berechnungdes grand mean insgesamt 2m Mittelwerte statt der m gehabt = Varianz 

Generierung antithetischer Zufallsgrößen

antithetische Variablen: gleichverteilte Zufallsgrößen mit einer negativen Kovarianz im ersten Lauf werden Zufallszahlen x aus der Gleichverteilung U(0,1) verwendet im zweiten Lauf werden Zufallszahlen 1 - x benutzt diese transformierten Zufallszahlen besitzen die gleiche Verteilung wie x der Korrelationskoeffizient zwischen den beiden Verteilungen beträgt -1

Kontrollvariablen

auch hier werden Korrelationen zwischen einzelnen Variablen des Simulationsmodells genutzt es wird nach Variablen gesucht, die in einem "natürlichen " Zusammenhang zueinander stehen