Biol. Cybernetics 17, 145--156 (1975) 9 by Springer-Verlag 1975

Der ProblemliSser Robbimat H.-J. Pohley, K. K6hne und W. Lange* Arbeitsgruppe Kybernetik am Institut Rir Entwicklungsphysiologie der Universit~itKNn, BRD Eingegangen am 10. April 1974

Abstract We first show how to formalizeenvironmentsin which situations can be changed only by action, and in which a situation should be brought about that is acceptable. This leads us to the concept of a problem constellation that consists of an action system, a reaction system, a judgement system, and an initial situation. We then present a cybernetical system which We call Robbimat. It is capable of testing problem constellations, of modifying them according to the results of the tests, and of judging the final constellation. We designed Robbimat in order to have favourable problem constellations automatically generated. As an example we discuss a simple game. It constitutes a win-loss-environment the structure of which can be deduced from the payoff function. We show how Robbimat analyses such an environment, and utilizing its structure classifies the initial situation. In einer friiheren Arbeit (Pohley, K6hne u. Singer, 1967) berichteten wir fiber den programmgesteuerten Rechenautomaten Robbi, der die Regeln eines einfachen Bauernspiels beherrscht, seine Spielweise dutch Erfahrungen verbessert und so das Problem 1/Sst, eine Gewinnstrategie zu finden. Wir haben diese Arbeit fortgesetzt mit dem Ziel, Begriffe zu entwickeln, mit denen Probleml/Ssung dieser Art pr~izise beschrieben und mathematischen fJberlegungen zug~inglich gemacht werden kann.

Often bleibt zun~ichst, ob w i r e s mit einer deterministischen Welt zu tun haben, in der die neue Situation durch die Handlung und die alte Situation eindeutig bestimmt ist, und ob das Urteil durch die beurteilte Situation eindeutig festgelegt ist oder ob der Zufall mitspielt. Wir lassen zu, dab eine Handlung an einer Situation nichts ~indert, die ,,neue" Situation also mit der alten fibereinstimmt, und dab verschiedene Handlungen dieselbe Wirkung haben k6nnen, d. h. dieselben Situationen in die jeweils selben Folgesituationen fiberfiihren. Auch braucht der Handelnde die genaue Wirkung einer Handlung nicht zu kennen. Wir setzen jedoch voraus, dab er in jeder Situation weiB, welche Handlungen in ihr m6glich sind. In der Beschreibung einer Situation sollen alle Informationen enthalten sein, die notwendig sind, um 1. zu erkennen, welche Handlungen in ihr m6glich sind, und zu entscheiden, welche Handlung durchgeffihrt werden soll, 2. zu bestimmen, welche Wirkungen die einzelnen Handlungen in ihr haben, 3. ein Urteil zu fallen, falls die Situation zur Beurteilung vorgelegt wird.

Problemkonstcllationen Die Problemwelt

Formalisierun9 der Problemwelt

Wit betrachten hier Welten, in denen allein durch Handlungen neue Situationen hergestellt werden k/Snnen und in denen es gilt, angenehme Situationen herbeizufiihren. Die Rolle des Handelnden in einer solchen Welt ist gekennzeichnet durch die Notwendigkeit, in zahlreichen Situationen Entscheidungen zu treffen, deren Konsequenzen er noch nicht absehen kann, bis er eine Situation zur Beurteilung vorlegt, die kl~irt, ob er seine Aufgabe mit Erfolg gel/3st hat. Wit beschreiben die Struktur dieser Welt durch Situationen, Handlungen und den Wirkungszusammenhang zwischen Situationen und Handlungen. * Wir danken Herrn Manffed Linder fiir seine Mitarbeit.

Die Beschreibung einer Situation nennen wir Figur, die einer Handlung Aktion. Der Wirkung einer Handlung entspricht dann im Formalismus die VVirkung einer Aktion. DaB sie durch die Aktion eindeutig bestimmt ist, findet seinen Ausdruck darin, dab der Aktion a ihre Wirkung A a durch einen Operator, den Wirkungsoperator A, zugeordnet wird. So, wie eine Handlung verm6ge ihrer Wirkung eine Situation in eine neue Situation fiberffihrt, ordnet die Wirkung einer Aktion einer Figur eine neue Figur zu. Ist eine Handlung in einer Situation m/Sglich, so nennen wit die zugeh6rige Aktion auf die zugeh/Srige Figur anwendbar. Die Menge der in einer Figur f an-

146

wendbaren Aktionen bezeichnen wir mit Az; die Menge der Figuren, auf die eine Aktion a anwendbar ist - - den Anwendungsbereich von a - - mit F,. Falls a ~ AI, nennen wir das Paar ( f a) eine Alternative in f. Figuren, in denen keine Aktionen anwendbar sind, heil3en Endfiguren. Wir stellen uns vor, dab nach Vorgabe einer Anfangsfigur fo die Wahl der Aktionen einerseits und ihre Durchftihrung andererseits yon zwei Systemen fibernommen werden. Bei vorliegender Figur w~ihlt das Aktionssystem eine Aktion und das Reaktionssystem stellt anhand der Aktion eine neue Figur her. Das Wechselspiel beider Systeme erzeugt eine Figuren-Aktions-Folge (fo, al; f l , a2; ...) mit f o =fo. An ihr kann man ablesen, welche Aktion (ai) in welcher Figur (fi-1) gew~ihlt wurde und welche unmittelbare Folgefigur (fi) sich daraus jeweils ergab. Wird die Figuren-Aktions-Folge abgebrochen, indem das Aktionssystem keine weitere Aktion w~ihlt, so wird durch ein Beurteilungssystem fiber die letzte Figur der Folge ein Urteil gef~illt. Das Gesamtsystem ist in Abb. 1 veranschaulicht. Ffir endliche Mengen F und A yon Figuren bzw. Aktionen 1N3t sich das Aktionssystem A beschreiben als ein stochastischer Zuordner mit dem Eingabealphabet F, dem Ausgabealphabet A und der Matrix A, deren Elemente 2(ajl f~) die Wahrscheinlichkeit angeben, mit der das Aktionssystem die Aktion aj ~ A ausgibt, wenn die Figur f/~ F eingegeben wird. Wenn a j in f nicht anwendbar ist, mug 2(ajl fi)= 0 sein. Die Summe der Elemente in einer Zeile der Matrix A ist stets kleiner oder gleich 1; die Differenz zu 1 ist die Wahrscheinlichkeit, mit der keine Aktion gew~ihlt wird.

Anfangsfigur

Urteil.

,l

l

Reoktionssyst.A~-~ ] sByeutrteilungs' D', Aktion

--1 Figur

[ Figur

Aktionssystem A b b . 1. S c h e m a einer P r o b l e m k o n s t e l l a t i o n

Das Reaktionssystem R, dessen Zustand jeweils durch die Figur f gegeben ist, in der das Aktiohssystem eine Aktion w~ihlt, tiberffihrt die Figur f bei Eingabe der Aktion a in eine Folgefigur f'. Es wird bestimmt durch die Angabe der Menge F der Figuren, der Menge A der Aktionen und des Wirkungsoperators A. Das Beurteilungssystem U ist definiert durch die Menge F der Figuren, durch die Menge U der Urteile und durch ein Beurteilungsverfahren f2, das tiber jede vorgelegte Figur ein Urteil f~illt. Zur Vereinfachung beschr~inken wir uns im folgenden auf die zwei Urteile ,,angenehm" und ,,nicht angenehm". Ein so definiertes Gesamtsystem ~ = (A, R, U, fo) heil3t Problemkonstellation. In einer Problemkonstellation werden beurteilte Figuren-Aktions-Folgen erzeugt. Die Wahrscheinlichkeit, mit der sie zu dem Urtell ,,angenehm" ftihren, liegt ftir jede Problemkonstellation fest und h~ingt von deren Teilsystemen und ihrem Zusammenspiel ab.

Figurenwelten In der weiteren Diskussion steht der Spezialfall im Mittelpunkt des Interesses, dab eine Aktion zusammen mit der Figur, auf die sie angewendet wird, die Folgefigur eindeutig bestimmt. Damit erreichen wir, dab die Wirkung A a einer Aktion a eine Abbildung aus der Menge der Figuren in die Menge der Figuren ist (ihr Definitionsbereich ist gerade der Anwendungsbereich F,). Reaktionssystemen mit eindeutigen Wirkungen geben wir daher einen besonderen Namen: Figurenwelten. Eine Figurenwelt ist nichts anderes ats ein Medwedjew-Automat (Gluschkow, 1963) in anderer Sicht. Ist die Sicht bei Medwedjew-Automaten die, dab ein Organismus (Automat) Umwelteinfltissen (Eingabesymbolen) ausgesetzt ist, so ist sie bei uns umgekehrt die, dab die Umwelt (Figurenwelt) durch Handlungen (Aktionen) beeinfluBt wird. Im allgemeinen entsprechen Figurenwelten Medwedjew-Automaten, bei denen die Zustandstiberffihrungsfunktion nicht notwendig ffir alle Paare yon Zustand (Figur) und Eingabesymbol (Aktion) definiert, d. h. nicht jede Aktion in jeder Figur anwendbar ist. Eine Figurenwelt heiBt endlich, wenn die Mengen der Figuren und Aktionen endlich sind, zyklenfrei, wenn keine Figuren-Aktions-Folge von einer Figur zu ihr zurfick ftihrt ~. Eine Figur f heil3t Ursprung der Figurenwelt, wenn von f Figuren-Aktions-Folgen zu allen anderen Figuren ffihren. 1 D a s heigt, es g i b t k e i n e F o l g e ( f ~ .... al;f 1) y o n F i g u r e n f 0 . . . . . ./.i u n d A k t i o n e n a 1. . . . . a l m i t fi=dai(fi-1), l>l u n d

fo =f,.

147

Wir werden uns weiter auf Beurteilungsverfahren beschrgnken, die tiber dieselbe Figur stets dasselbe Urteil f~illen, also die Menge der Figuren in die Menge der Urteile abbilden. Der Graph einer Problemkonstellation Figurenwelten lassen sich als gerichtete Graphen darstellen. Dazu w[ihlt man als Ecken (Knoten) des Graphen die Figuren und zieht for jede in der Figur f anwendbare Aktion a eine Kante yon f nach der durch Tabelle 1. Beispiel einer einfachen Problemkonstellation Die Figurenwelt ist endlich und zyklenfrei. Die Urteile sind eindeutig bestimmt Menge der Figuren

Menge der Aktionen Menge der Urteile

F = {fo, f~, f2, f3}

A = (ai, a2}

U = (ul, u2}

Wirkungsoperator A Matrix A A

fo

Aal z]a2

.fl fa

fa

Beurteilungsfunktion f2

al

f2 f3

a2

foV3/4

fo Ursprung

l/q

f3 0

f2:

l fo

fl

l u2

f2

f3

u2 u 1 u2

u 2 = nicht angenehm

Reaktionssystem

Aktionssystem

Beurteilungssystem

R = ( F , A, A)

A = (F, A, A)

U = (F, U, f2)

Problemkonstellation N = (A, R, U, fo) Graph der Figurenwelt F = R

Graph der Problemkonstellation

~ u2 Anwendungsbereiche der Aktionen: Fa,=Fa2={fo, f l } Mengen der in den Figuren anwendbaren Aktionen: Afo = AS, = {al, a2} A f2 =

~1:3= 0

Menge der Alternativen: H = {()Co,a0, (fo, a2), (fl, al), (fl, az)} Menge der Endfiguren: T = {f2, f3} Figuren-Aktions-Folgen: ~l : (fo, a2; f2), ~z2 = (fo, al ; fl, al ; fz), re3 = (fo, al ; fl), re4 = (fo, al ; ft, a2; f3) Wahrscheinlichkeiten der Urteile ul und u2: P(ul) = P(nl, us) + P(Tz2, ul) = 1/4 -b 3/8 = 5/8 P(u2) = P(~z3, u2) + P(~4, u2) = 3/16.42 3/16 = 3/8

a hergestellten Folgefigur f ' = A a(f). Jeder Alternative entspricht damit genau eine Kante und jeder FigurenAktions-Folge genau ein gerichteter Kantenzug. Indem wir weiterhin bei jeder Kante (f, a) des Graphen die Wahrscheinlichkeit 2(alf) und bei jeder Ecke das Urteil ~2(f) notieren und die Anfangsfigur fo auszeichnen, stellen wir eine Problemkonstellation 2 als gerichteten Graphen mit bewerteten Kanten, bewerteten Ecken und einer ausgezeichneten Ecke dar. Ein Beispiel fOr eine Problemkonstellation ist in Tab. 1 gegeben. Giinstige Problemkonstellationen Angeregt von dem Problem, angenehme Figuren herzustellen, kommt man zu Problemstellungen, die sich in der Weise formulieren lassen, dab ,,gtinstige Problemkonstellationen" herzustellen sind. Die Bearbeitung solcher Probleme lgtl3t sich wieder in Problemkonstellationen formalisieren. Als Beispiel sei das Problem genannt, die Wahrscheinlichkeit, mit der in einer Problemkonstellation angenehme Figuren erzeugt werden, zu maximieren. Versucht man dies durch ~nderungen am Aktionssystem, also am Wahlverhalten des Handelnden, zu erreichen, so l~13t sich das so bearbeitete Problem deuten als Anpassung des Handelnden an seine Umwelt. Andert man statt dessen das Reaktionssystem, also die Wirkungen der Handlungen, so sucht man umgekehrt, die Umwelt den Eigenheiten des Handelnden anzupassen. Weiterhin kann man die Anfangsfigur vedindern, also eine gtinstige Ausgangslage suchen. Die letzte MSglichkeit besteht schliel31ich darin, das Beurteilungssystem und damit eigentlich die Aufgabenstellung zu ver~indern. Auch Kombinationen dieser Vorgehensweisen lassen sich sinnvoll interpretieren. Im folgenden werden wir unter Bezug auf die besondere Struktur der dort untersuchten Reaktionssysteme noch andere Probleme behandeln, die in der Herstellung ,,giinstiger" Problemkonstellationen bestehen. Der Robbimat Die Konstellatioa Robbimat Das Problem, eine giinstige Problemkonstellation herzustellen, gehen wir durch ein System an, das wir Robbimat nennen. Der Robbimat ist, abstrakt deftniert, selbst eine Problemkonstellation, deren Figuren, Konfigurationen genannt, Beschreibungen von Problemkonstellationen enthalten. Das Aktionssystem der 2 Die Mengen tier Figuren und Aktionen seien endlich, Wirkungen und Beurteilungsverfahren eindeutig.

148 Anfangskonfiguration

Protokol[

t

~1 ~-~Korrektursystem ja(Abbruch)

~

nein

i IXo,on,,, I'oI u

konstellation erzeugt werden k6nnen, eine aus und gibt sie als Testergebnis an das Korrektursystem. Dieses ftihrt daraufhin eine Korrektur durch, indem es anhand des Testergebnisses die vorliegende Konfiguration mit Hilfe eines Korrekturverfahrens in eine neue Konfiguration i]berftihrt, die gespeichert und dem Testsystem zur Abbruchprtifung vorgelegt wird. Wir behandeln hier nur Korrekturverfahren, die ausschlieBlich das Aktionssystem ~indern.

Das Lexikon

I Reaktions- JA L_

system ["l ] Beurteilungs system ~

r--

Jl.

( A b b r u c h ) ja

l

nein

A

Aktionssystem Testsystem Abb. 2. Die Konstellation Robbimat

Konstellation Robbimat nennen wir Testsystem, das Reaktionssystem heiBt Korrektursystem und das Beurteilungssystem Protokollsystem (Abb. 2) 3. Wir bezeichnen auch jeden konkreten Automaten, der die Problemkonstellation Robbimat und die in den Konfigurationen beschriebenen Problemkonstellationen realisiert, selbst als Robbimat. Wir denken hierbei insbesondere an ein Computer-Programm, bei dem die Systeme wie das Testsystem oder die Aktionssysteme als Unterprogramme vorhanden sind. ES gibt daher Sinn, zu sagen, der Robbimat ,,erzeuge" Figuren oder Konfigurationen und ,,speichere" sie. Ein Robbimat-Experiment beginnt mit der Herstellung der Anfangskonfiguration. Es wird abgebrochen, wenn die dem Testsystem vorgelegte Konfiguration bestimmte Abbruchkriterien erftillt. In diesem Fall wird die Konfiguration dem Protokollsystem zur Beurteilung fibergeben. Das Resultat is ein Protokoll mit Angaben tiber den Verlauf und das Ergebnis des Experiments. Falls das Experiment nicht abgebrochen wird, w~ihlt das Testsystem aus der Menge aller beurteilten Figuren-Aktions-Folgen, die vonder in der vorliegenden Konfiguration beschriebenen Problem3 Die Begriffe Aktion, Reaktion usw. verwenden wir im folgenden nur im Z u s a m m e n h a n g mit den Problemkonstellationen, die in den Konfigurationen beschrieben werden.

Ein Aktionssystem beschreiben wit nicht unmittelbar dutch eine Matrix A, sondern mittelbar durch eine Bewertungsfunktion ~, die jeder Alternative ( f a) einen Weft ~ ( f a)~ [0, 1] zuordnet, und durch ein Verfahren, das bei Vorgabe einer Figur f u n d einer Aktion a die Wahrscheinlichkeit 2(a[ f ) anhand der bewerteten Alternativen berechnet. Hierbei k6nnen verschiedene Bewertungsfunktionen dieselbe Matrix A ergeben, also dasselbe Verhalten beschreiben. Durch Einffihrung der ~-Werte besteht die MBglichkeit, die (angenommene oder yon dem Korrektursystem aus Testergebnissen abgeleitete) Gfite einer Alternative in ihrem Wert auszudrficken, und zwar unabh~ngig yon den Werten anderer Alternativen. Auch kann der Weft einer Alternative ohne Nebenwirkungen auf die Werte anderer Alternativen ge~ndert werden, was ffir Wahrscheinlichkeiten nicht zutrifft. Der Robbimat speichert die bewerteten Alternativen in einem Lexikon. Dabei werden die Alternativen (f, a) mit fester Aktion a zu einem Block zusammengefaBt. Es erfibrigt sich dann innerhalb eines Blocks die Notation yon a, und gespeichert wird nut die Figur f der Alternative ( f a) mit dem zugeh6rigen Welt ~(f, a). Ein Lexikon, das so aufgebaut ist, nennen wir Figurenlexikon. Das Lexikon ist technisch so angelegt, dab statt der Figuren auch Merkmale von Figuren gespeichert werden kBnnen. Eine Bewertungsfunktion l~Bt sich dann wesentlich kompakter darstellen, als dies in einem reinen Figurenlexikon mBglich ist. Auch besteht dann die Aussicht, Erfahrungen, die in einer Situation gemacht wurden, auf Situationen zu fibertragen, die gleiche Merkmale haben. Wir werden hiertiber in einer sp/~teren Arbeit berichten. Die Bewertung der Alternativen zu Beginn eines Robbimat-Experiments, die Anfangsbewertung, ist durch die Anfangskonfiguration gegeben. Bei der Wahl einer Anfangskonfiguration stehen wit somit vor dem Problem, eine Anfangsbewertung zu finden, die zusammen mit dem Korrekturverfahren den Ablauf des

149

Experiments gtinstig beeinflufSt. Wit lassen zun~ichst nur Anfangsbewertungen zu, die allen Alternativen denselben Wert zuordnen, den Standard-Anfangswert. Der Robbimat ist dann in der Lage, ein Experiment mit einem Lexikon zu beginnen, das weder Figuren noch Bewertungen enthalt, mit einem leeren Lexikon. Jede Alternative, die yon dem Robbimat im Lexikon gesucht, aber nicht gefunden wird, erhglt den StandardAnfangswert. So wird Speicherplatz gespart. In das Lexikon aufgenommen werden nur Alternativen, deren Bewertungen vom Korrektursystem stammen. Wir sprechen in Zusammenhang mit dieser Technik von einem offenen Lexikon.

Das Testsystem

nennen wir annehmbar. Das Wahrscheinlichkeitsverfahren sorgt daftir, dab mindestens eine Aktion in f annehmbar ist, wenn Ay :# 0. Das Schwellenwertverfahren ist ffir Probleme vorgesehen, die der Robbimat auch dann liSsen kann, wenn das Aktionssystem in jeder vortiegenden Figur nur zwischen annehmbaren und nicht annehmbaren Aktionen unterscheidet und unter den annehmbaren Aktionen gleichwahrscheinlich w~ihlt. Das Verfahren besteht darin, aus der Menge AI eine Menge J l auszusondern, in der alle annehmbaren Aktionen enthalten sind, das sind bei diesem Verfahren aUe Aktionen a ~ As, ftir die der Wert a ( f a) einen yon der Figur f abh~ingigen Schwellenwert O(f) e [0, 1] erreicht. Also AI := {a ~ AI :ct(f, a) > O(f)}. Da alle annehmbaren Aktionen gleichwahrscheinlich gewghlt werden sollen, wird die Wahrscheinlichkeit auf

Die Wahl einer beurteilten Figuren-Aktions-Folge durch das Testsystem geschieht in der folgenden Weise. 2(alf):={;/lJf] falls a ~ j I Bei Vorgabe einer Figur f bestimmt das Aktionsfalls a r _/if system die Menge AI der Aktionen aus A, die auf f anwendbar sind, indem es ftir jede Aktion a entscheidet, festgesetzt. In (Jbereinstimmung mit der beim Wahrob f zum Anwendungsbereich F, gehSrt. Da uns dieses scheinlichkeitsverfahren gegebenen Definition sind in Erkennungsproblem hier nut nebenbei interessiert, ver- J y genau diejenigen Aktionen enthalten, deren Wahrweisen wit Leser, die sich tiber Systeme informieren scheinlichkeit grSger 0 ist. Das Verhalten des Aktionssystems h~ingt bei wollen, die Figuren anhand yon Merkmalen erkennen, diesem Verfahren wesentlich davon ab, wie e-Werte auf Minsky u. Papert (1969). Falls keine Aktion in f anwendbar ist, also und Schwellenwerte aufeinander abgestimmt sind. A I = 0 gilt, wird die Figuren-Aktions-Folge in f ab- Setzt man beispielsweise alle Schwellenwerte auf 0, gebrochen und dem Beurteilungssystem des Test- so wird J f = As, und das Aktionssystem w~ihlt unter den anwendbaren Aktionen zuf~illig. Nur die bestbesystems zur Beurteilung tibergeben. Ist die Menge Af der in der Figur f anwendbaren Aktionen bestimmt, so steht das Aktionssystem vor der Aufgabe, sich fiir eine Aktion aus Ay zu entscheiAktion Figur Figur den. Es 16st diese Aufgabe in zwei Schritten: W~gen und Vffdhlen. Anhand der im Lexikon gespeicherten Werte der Alternativen wird zun~iehst abgewogen, mit welcher Wahrscheinlichkeit eine Aktion a aus Af gew~ihlt werden soll, und danach eine Aktion a entsprechend ihrer Wahrscheinlichkeit gew~ihlt. Wir beschreiben als Beispiele zwei W~igeverfahren, das Wahrscheinlichkeitsverfahren und das Schwellenwertvernem fahren. Das Wahrscheinlichkeitsverfahren ordnet jeder Aktion a aus Af die Wahrscheinlichkeit

1

I rkennen [

I

~

W6gen 1

~c~(f,a)/S falls S > 0

2(alf) :=

[t/lA:l

falls S = 0

mit

I

nein

S=

E

~(f,a')

a" e~A . f

W&hlen

zu. Die Aktionen aus Xy :=

{a e Ay" X(alf) > 0}

Abb. 3. Das Aktionssystem

150

werteten Alternativen werden berficksichtigt, wenn man O(f) = max e ( f a) setzt. a~Ay

Ein Abbruch der Figuren-Aktions-Folge kann aus zwei Grfinden erfolgen (Abb. 3): Entweder ist in der Figur f keine Aktion anwendbar (Af = 0), oder es ist zwar A f + O, aber keine der in f anwendbaren Aktionen ist annehmbar (Af = 0).

Das Korrektursystem Bei Eingabe eines Testergebnisses tiberffihrt das Korrektursystem mit Hilfe eines Korrekturverfahrens die vorliegende Konfiguration in eine neue Konfiguration. Soweit dabei das in der Konfiguration beschriebene Aktionssystem betroffen ist, besteht die Korrektur im wesentliehen in einer Anderung der im Lexikon gespeicherten ~-Werte. Unsere Taktik ist nun die, nieht global und zuf~illig (vgl. Ashby, 1952), sondern lokal und gezielt zu ~ndern, und zwar dort, wo das Testergebnis gewisse Anhaltspunkte ftir die Richtung der Anderung liefert. Wird also dem Korrektursystem als Testergebnis die Figuren-Aktions-Folge (f0, a ~; ... ; f~- a, at; f~) mit dem Urteil ~(fl) vorgelegt, so werden h6chstens die Werte der Alternativen (fi-~, a i) ftir i = 1..... l korrigiert. Das Korrektursystem vollzieht eine Korrektur entlang einer Figuren-Aktions-Folge in zwei Sehritten. Zun~ichst wird das Testergebnis ausgewertet, d. h. aus dem Urteil (2(f l) wird Rir jede Alternative (f, a) der Figuren-Aktions-Folge ein Weft fl(f a) ~ [0, 1] abgeleitet. Danach wird aus /~(f a) und dem im Lexikon gespeicherten Wert e ( f a) ein neuer Weft e ' ( f a) bestimmt und anstelle des alten im Lexikon gespeichert. In welehem AusmaB die in dem alten e-Wert verarbeiteten Erfahrungen bei der Festlegung des neuen e-Wertes berticksichtigt werden, h~ingt von dem benutzten Korrekturverfahren ab. Die bislang gemachten Erfahrungen werden vollst~indig verworfen, wenn fl(fa) als neuer e-Weft tibernommen wird, und bleiben unver~ndert gtiltig, wenn e'(f, a)= e ( f a) gesetzt wird.

Das Protokollsystem Das Ergebnis eines Experiments wird in Form eines Protokolls ausgegeben. Dieses sollte alle interessierenden Angaben fiber den Verlauf des Experiments enthalten. Auch sollte es Auskunft dariiber geben, ob das dem Robbimat zur Bearbeitung vorgelegte Problem gelSst wurde. Das ist jedoch nur mSglich, wenn das Protokollsystem anhand der Konfiguration eine

LSsung erkennen kann. Sind die Merkmale, die eine L6sung verbfirgen, schwer abpriifbar, so werden abgeleitete Merkmale benutzt, die eine L6sung nur mit einer gewissen Wahrscheinlichkeit zusichern. Der Robbimat bearbeitet dann nicht mehr das ursprtingliehe, sondern das dutch die abgeleiteten Merkmale bestimmte Problem.

Gewinn-Verlust-Welten Das Spiel Kascha Wir erl~iutern den Begriff Gewinn-Verlust-Welt am Beispiel Kascha. Kascha ist ein einfaches Bauernspiel zwischen zwei Parteien Weig und Schwarz, das auf einem rechteckigen Brett von m , n Feldern mit n Bauern auf jeder Seite gespielt wird (Gardner, 1962; m =>2, n__>1 feste ganze Zahlen, wit sprechen daher genauer vom m , n-Kascha). Die beiden Parteien ziehen alternierend mit jeweils einem eigenen Bauern, Weig beginnt. Der Bauer wird dabei um ein Feld vorgerfickt, und zwar wahlweise geradeaus, wenn das betreffende Feld leer ist, oder schr~ig, indem er einen Bauern des Gegners schl~igt. Eine Partie endet, wenn diese Regeln keinen Zug mehr zulassen oder wenn ein Bauer die Grundlinie des Gegners erreicht hat (Durchbruch). Die Partei, die als erste nicht mehr ziehen kann, hat verloren. Kascha gehSrt zur Klasse der Zweipersonen-Nullsummenspiele mit vollst~indiger Information (Luce u. Raiffa, 1958).

Situationen und Handlungen Eine Partie l~igt sich beschreiben als eine Folge von Situationen und Handlungen (Abb. 4a). Die Situationen werden bestimmt dutch die Verteilung der Bauern auf dem Spielbrett - - die Stellung - - und dutch die Angabe, welche der beiden Parteien am Zuge ist. Welche Handlungen mSglich sind, h~ingt ausschlieBlich v o n d e r momentanen Situation ab, also z. B. nicht vom bisherigen Verlauf der Partie. Die bedeutsamen Merkmale der Situation sind dabei lokaler Natur. Ob beispielsweise ein Bauer von Feld X geradeaus auf Feld Y gezogen werden kann, h~ngt nur davon ab, ob auf Feld X ein Bauer der ziehenden Partei steht und ob Feld Y leer ist, jedoeh nicht davon, wie die fibrigen Felder besetzt sind. Die HandlungsmSglichkeiten werden zwar zus~itzlich eingeschr~inkt durch die Regel, dab eine Partie bei Durchbruch endet; ob aber der Gegner durehgebrochen ist, l~iBt sich wiederum an tier Situation selbst erkennen, und

151

O0 O0 W

O0 =0 (a) 0 S

9 =0 (b) 0 W

9 =0 (c) S

deren genaue Wirkung nicht bekannt zu sein braucht. Soweit die Wirkungen der Handlungen eindeutig sind, d.h. eine bestimmte Handlung eine bestimmte Situation stets in dieselbe Folgesituation fiberfiihrt, nehmen sie eine Zwischenstellung ein zwischen einzelnen l~berg~ingen einerseits und Regein wie ,,geradeaus ziehen" andererseits. Im Verlauf einer Kascha-Partie verfolgt jede der beiden Parteien das Ziel, eine Situation zu schaffen, in der die gegenerische Partei handlungsunfahig ist. Wir werden uns noch tiberlegen, dab dies stets genau einer der beiden Parteien gelingt: jede Partie endet nach endlich vielen Ztigen.

Die Figurenwelt des m , n-Kascha

b Abb. 4. a Eine Partie des 3*2-Kascha. O = w e i g e r Bauer, 9 = schwarzer Bauer, W = Weig am Zuge, S = Schwarz am Zuge. a WeiB zieht mit dem linken weigen Bauern geradeaus, b Schwarz schl~igt mit dem rechten schwarzen Bauern nach links, c Weil3 schl~igt mit dem rechten weiBen Bauern nach links. Schwarz kann nicht mehr ziehen: Weig hat gewonnen, b G r a p h der Figurenwelt des 3 9 2-Kascha. Der Partie aus Abb. 4a entspricht die durch Doppelpfeile gekennzeichnete Figuren-Aktions-Folge. Die Figuren und Aktionen sind fortlaufend numeriert, a I =(i[, 1,0), a 2 = (2, 1,0), a3 = (1, 2,0), a4 = (2, 2, 0), ct5 =(1, 1, 1), a6 =(1, 2, - 1)

tiberprtift werden mtissen dabei nur ganz bestimmte Felder, die der eigenen Grundlinie. Die Handlungen werden bestimmt durch das Feld, auf dem der Bauer steht, der verrtickt werden soll, und durch die Richtung, in die er gerfickt wird - - geradeaus, nach rechts oder nach links. Wie die Spieler diese Handlungen konkret durchRihren, ist gleichgiiltig - - allein die Wirkung einer Handlung interessiert, d. h. die durch sie hervorgerufene Ver~inderung der Situation. Die Spielregeln k6nnten auch in der Weise formuliert werden, dab genau aufgez~ihlt wird, welche Situationen in welche Situationen iiberftihrt werden dtirfen. Die Interpretation verschiedener Uberg~inge als Wirkung ein und derselben Handlung dient einmal einer iibersichtlichen Beschreibung des Spiels. Zum andem tr~igt sie dem Umstand Rechnung, dab im allgemeinen bei der Entscheidung Rir eine Handlung

Da Kascha ein Spiel mit vollst~ndiger Information ist, kann man es ohne Verf~lschung gegen sich selbst spielen. Versucht man gleichzeitig f~r beide Parteien optimal zu spielen, so wird man sogar in besonders ~konomischer Weise lernen. Wir nehmen hierzu an, dab das Spielbrett nach jedem Zug um die Querachse gekippt wird und alle weiBen Bauem gegen schwarze ausgetauscht werden und umgekehrt. Es wird dann nur noch mit weiBen Bauem gezogen. Dieser technische Kniff wird es uns erlauben, die Handlungen der beiden Parteien gleichartig zu beschreiben. Wir bezeichnen die Felder des Spielbretts mit c(i,j), wobei i die Zeilennummer und j die Spaltennummer des Feldes seien. Dabei sollen die Zeilen yon unten nach oben und die Spalten yon links nach rechts gez~hlt werden. Ffir jedes Feld lassen die Spielregeln genau eine der drei folgenden Besetzungen (Zust~nde) zu: L: das Feld ist leer, W: auf dem Feld steht ein weiBer Bauer, S: auf dem Feld steht ein schwarzer Bauer. Eine Situation wird jetzt dadurch beschrieben, dab man jedem Feld seinen Zustand zuordnet. Eine solche Zuordnung heigt Figur des m*n-Kascha, F sei die Menge dieser Figuren. Zur Bestimmung einer Handlung ist auBer der Angabe der Zeilen- und Spaltennummern des Feldes, auf dem der Bauer steht, der vorgeriickt werden soll, noch die Angabe der Richtung r nOtig: r = 0 geradeaus, r = - 1 links, r = 1 rechts. Eine Angabe a=(i,j,r) heigt Aktion des m* n-Kascha, A sei die Menge dieser Aktionen. Die Wirkung Aa einer Aktion a = (i, j, r) vollzieht sich in zwei Schritten: 1. Das Feld c(i,j) nimmt den Zustand L, das Feld c(i+ 1,j+ r) den Zustand W

152 an (dies entspricht dem Vorriicken des Bauern), 2. die Zust~inde W und S werden bei allen Feldern ausgetauscht und die Zeilennummern i' in m + 1 - i' ge~indert (dies entspricht dem Kippen des Bretts). Mit diesen Definitionen ist F = (F, A, A) eine Figurenwelt, die Figurenwelt des m,n-Kascha. Die Figur, die die Grundstellung beschreibt, ist Ursprung von F. Abbildung 4b zeigt eine Darstellung der Figurenwelt des 3 * 2-Kascha als gerichteten Graphen. Die Figurenwelt des m, n-Kascha ist endlich und zyklenfrei (dies liegt daran, dab die Bauern einer Partei nur in Richtung der Grundlinie des Gegners geriickt werden kOnnen). Hieraus folgt, dab die L~inge der Figuren-Aktions-Folgen beschr~inkt ist (sie ist nie gr6ger als 2n(m - 2) + 1); daher endet jede Partie.

Gewinn- und Verlustfiguren beim Spiel Kascha

Beim Spiel Kascha m6chte jede der beiden Parteien in einer Partie schlieBlich eine Endstellung herstellen (in der der Gegner handlungsunf~ihig ist). Da abet Partei I eine Endstellung herstellen will, mug ihr Gegner, Partei II, sich bemiihen, solche Stellungen herzustellen, die, wenn sie schon keine Eladstellungen sind, jedenfalls der Partei I nicht diese MSglichkeit lassen. I wiederum wird Stellungen herzustellen suchen, die II keine andere Wahl lassen, usf. Nennen wir die zu den angestrebten Stellungen gehSrenden Figuren Gewinnfiguren, die anderen Verlustfiguren. Dann kann man anhand des Graphen der Figurenwelt des Kascha schrittweise bestimmen, welche Figuren Gewinnfiguren sind und welche Verlustfiguren (vgl. Bouton, 1901). Zun~ichst sind alle Endfiguren Gewinnfiguren - - die Partei, die sie herstellt, gewinnt die Partie. Alle Figuren, von denen eine Kante zu einer bereits als Gewinnfigur erkannten Figur l~iuft, sind Verlustfiguren - - die Partei, die in ihnen am Zuge ist, hat die M6glichkeit, eine Gewinnfigur herzustellen. Alle Figuren, bei denen nur Kanten beginnen, die zu Figuren laufen, die bereits als Verlustfiguren erkannt sind, sind wieder Gewinnfiguren - - die Partei, die in ihnen am Zuge ist, lgBt ihrem Gegner stets die M6glichkeit, eine Gewinnfigur herzustellen (Abb. 5a). SchlieBlich wird auch der Ursprung erfagt. Daraus folgt, dab bei Kascha eine der beiden Parteien bevorzugt ist, und zwar die anziehende, falls die Anfangsfigur Verlustfigur, die nachziehende, falls die Anfangsfigur Gewinnfigur ist. Die bevorzugte Partei kann jede Partie gewinnen, wenn sie jeweils die richtige Handlung ergreift, n~imlich eine von denen, die eine Gewinnstellung herbeifiihren.

An dieser Struktur des Kascha ~indert sich selbstverst~indlich nichts, wenn ein einzelner Spieler fiir beide Parteien spielt. In ihr findet auch in diesem Fall seinen Niederschlag, dab Kascha ein Spiel zwischen zwei gegnerischen Parteien ist. Das Gewinn- Verlust-Axiom

Die am Beispiel Kascha vorgeftihrte Aufspaltung der Figuren in Gewinn- und Verlustfiguren l~igt sich axiomatisch charakterisieren. Und zwar nennen wir eine Zerlegung der Menge der Figuren einer beliebigen Figurenwelt in zwei Mengen F + und F - eine GewinnVerlust-Zerlegung, die Figuren in F + dann Gewinn-, die in F - Verlustfiguren, wenn ftir jede Figur f die keine Endfigur ist, gilt: f e F+.~Va ~ Af(Aa(f) ~ F-).

Dies bedeutet: Alle unmittelbaren Folgefiguren von Gewinnfiguren sind Verlustfiguren und jede Verlustfigur, die tiberhaupt eine unmittelbare Folgefigur besitzt, besitzt eine, die Gewinnfig, ur ist. Eine Figurenwelt zusammen mit einer Gewinn-Verlust-Zerlegung heiBt eine Gewinn- Verlust- Welt. Ffir gewisse Figurenwelten (hierzu geh6ren alle, die endlich und zyklenfrei sind, insbesondere also die Figurenwelten des Kascha) l~igt sich zeigen: Jede Zerlegung der Menge T der Endfiguren in zwei Mengen

) )

r

b a b Abb. 5 a Gewinn- und Verlustfiguren des 3*2-Kascha. b Graphen der vollst~indigen,paaren Teilweltendes 3*2-Kascha. a ist stur und vollst~indig und damit die grOgte paare Teilwelt, b ist radikal und die kleinste paare Teilwelt, a, b, c und d sind strategisch

153

T + und T - kann man zu genau einer Gewinn-VerlustZerlegung F + 9 T +, F - 9 T - fortsetzen. Die Figurenwelt des m,n-Kascha zusammen mit der durch die Festsetzung T + := T, T - := 0 bestimmten Gewinn-Verlust-Zerlegung heiBt Gewinn-Verlust-

Welt des m, n-Kascha. Teilwelten als Beschreibung des Spielverhaltens Ein Kascha-Spieler, der ftir beide Parteien agiert, spielt optimal, wenn er bei der Entscheidung zwischen den m6glichen Handlungen stets, sofern vorhanden, eine solche ausw~ihlt, die zu einer Gewinnstellung fiihrt. Sein Problem besteht also darin, die Anwendungsbereiche der Aktionen einzuschr~inken, sich in einer Teilwelt der Figurenwelt des Kascha zu bewegen, in der keine Aktion mehr eine Verlustfigur in eine Verlustfigur iiberfiihrt. In einer Pattie wechseln dann Gewinn- und Verlustfiguren einander ab; wir sagen daher, die Teilwelt sei paar (Abb. 5b). Gibt er ftir die bevorzugte Partei nicht auf, d.h. sind keine Verlustfiguren in der Teilwelt Endfiguren, die es nicht schon in der Ausgangswelt waren, so heil3t die Teilwelt z~ih. L~if3t er die Oberg~inge von Verlustfiguren zu Gewinnfiguren alle unangetastet, nennen wir die Teilwelt vollstgmdig, beschr~inkt er sich aufjeweils einen, wiihlt also ftir die bevorzugte Partei eine feste Strategie, so nennen wit die Teilwelt strategisch. Solange er sich in einer paaren und z~ihen Teilwelt bewegt, wird die bevorzugte Partei jedenfalls gewinhen. Ftir die benachteiligte Partei kann er aufgeben, d.h. sich auf eine Teilwelt beschr~inken, in der alle Gewinnfiguren Endfiguren der Teilwelt sind, wir nennen sie radikal. Er kann abet auch auf Fehler der gegnerischen Partei bauen. Dies spielt eine RoIle, solange er noch keine paare Teilwelt gefunden hat, oder wenn er nicht fiir beide Parteien gleichzeitig, sondern als benachteiligte Partei gegen einen anderen Spieler spielt. In diesem Fall wird er in die Teilwelt alle Oberg~inge von Gewinnfiguren zu allen Folgefiguren aufnehmen, wit nennen sie dann stur. In einer Teilwelt sind in der Regel nicht mehr alle Figuren vom Ursprung aus erreichbar, d. h. sie kommen in keiner Pattie mehr vor. Diese Teile der Tellwelt ignorieren wir. Diese (3berlegungen gelten ftir jede Gewinn-Verlust-Welt.

Das Eliminationsverfahren

Da viele bekannte Spiele die Struktur einer Gewinn-Verlust-Welt aufweisen, haben wir Korrektur-

veffahren entwickelt, mit denen der Robbimat aus einer Gewinn-Verlust-Welt bestimmte Teilwelten aussondern kann. Ober Korrekturverfahren, die Teilwelten bestimmen, die paar und stur sind, und tiber Computer-Experimente mit dem Robbimat werden wit in einer gesonderten Arbeit berichten. Im folgenden gehen wir von einer endlichen, zyklenfreien Figurenwelt mit Ursprung fo aus, geben eine Zerlegung der Menge T der Endfiguren in T + und T - vor und konstruieren einen Robbimat, der fo als Gewinn- bzw. Verlustfigur in der zugeh6rigen Gewinn-Verlust-Zerlegung klassifiziert.

Das Verfahren Als L6sungsverfahren benutzen wir das schon frtiher beschriebene Eliminationsverfahren (Pohley, K6hne u. Singer, 1967)o Es identifiziert Alternativen, die zu einer Verlustfigur fiihren (Verlustalternativen), und eliminiert sie. Elimination einer Alternative (f, a) bedeutet dabei Streichung der Aktion a aus der Menge AI der in f annehmbaren Aktionen. Im Robbimat kann dies auf folgende Weise geschehen. Man installiert das Schwellenwertverfahren mit festen S chwellenwerten O(f) = 1 ffir alle Figuren f und w~ihlt ~(f, a)= 1 als Standard-Anfangswert. Wird die Alternative (f, a) als Verlustalternative identifiziert, so wird c~(f a) = 0 gesetzt und damit geh6rt a nicht mehr zur Menge AI = {a ~ AI: c~(f a) > 1}. Die Identifikation einer Verlustalternative erfolgt unter Benutzung des Gewinn-Verlust-Axioms, das wir hier in Form zweier Riickschlufisiitze formulieren. I. Wenn die Figur f keine Endfigur ist und alle Aktionen, die auf f anwendbar sind, Verlustfiguren erzeugen, dann ist f eine Gewinnfigur. II. Wenn es eine auf f anwendbare Aktion gibt, die eine Gewinnfigur erzeugt, dann ist f eine Verlustfigur. Anhand folgender LXberlegungen kann man unter den Alternativen (fi-l, ai) einer Figuren-AktionsFolge ~z=(f~ fl-Z, al-1; f l - l , al; f z) mit f o ----fo stets eine Verlustalternative ausmachen - - oder abet das Problem ist gel/Sst. Ist f l = A d ( f ~ - l ) eine Verlustfigur, so ist d i e letzte Alternative (fz- 1 d) der Figuren-Aktions-Folge eine Verlustalternative. Ist jedoch f l eine Gewinnfigur, dann gibt es in AI,_~ eine Aktion, n~imlich d, die angewandt auf f~-1 eine Gewinnfigur erzeugt, und damit ist f~-1 nach Rtickschlul3satz II eine Verlustfigur und die vorletzte Alternative (f~-2, a l- 1) der Figuren-Aktions-Folge eine Verlustalternative. Charakteristisch ftir das Eliminationsverfahren ist der rtickw~irts fortschreitende Identifikationsprozel3,

154

der mit einer Verktirzung der Figuren-Aktions-Folgen einhergeht. Diese tritt ein, wenn ftir ein f 6 T die Menge @ leer ist, well alle Alternativen in f als Verlustalternativen identifiziert wurden, Aus Rtickschlugsatz 1 folgt dann: f ist eine Gewinnfigur. Ftir das Beurteilungssystem liegt damit folgende Definition nahe: Die Urteile seien u + und u-, und zwar sei far ein f e T - das Urteil O(f) = u-, fiir alle anderen f sei ( 2 ( f ) = u +. Dieses Beurteilungssystem ordnet der letzten Figur f l einer Figuren-AktionsFolge, die vom Aktions-Reaktions-System erzeugt wird, das Urteil u = u + zu, wenn f~ eine Gewinnfigur ist, und das Urteil u = u-, wenn f l eine Verlustfigur ist. Das Korrektursystem wertet das Testergebnis (~z, u) aus, indem es gem~iB den oben durchgeftihrten Uberlegungen den Wert fi(f', a'):= 0 ftir die letzte (falls u = u-) bzw. vorletzte (falls u = u +) Alternative in rc ableitet und ftir alle anderen Alternativen ( f a) in zc fi(f a) : = 1. Danach setzt es ftir alle Alternativen in n c~(f a ) : = fl(f a) und eliminiert auf diese Weise die Verlustalternative (f', a'). Wird keine Alternative eliminiert, ist das Problem gel6st, und das Experiment kann abgebrochen werden. Es liegt dann eine der Bedingungen in Tab. 2 vor. Aus diesen Bedingungen ergeben sich das Urteil u e {u +, u-} tiber die letzte Figur der Figuren-AktionsFolge re, die L/inge l~ von r c u n d die Zugeh6rigkeit des Ursprungs fo zu F + bzw. F - (Tab. 2 und Abb. 6). Das Korrektursystem schreibt bei jeder Korrektur sowohl die L~inge l~ als auch das Urteil u in die Konfiguration und setzt einen Abbruchschalter s, der mit zur Konfiguration geh6rt und anfangs den Wert 0 hat, auf 1, wenn keine Alternative eliminiert wurde. Das Testsystem bricht bei s = 1 das Experiment ab und tibergibt die Konfiguration dem Protokollsystem, das im Protokoll ,,fo ~ F+" ausgibt, wenn 1~= 0 und u = u + gilt, andernfalls ,,foe F - " . Eine Korrektur gndert h6chstens die Bewertungsfunktion c~, das Urteil u, die L~inge l~ oder die Stellung des Abbruchschalters s. Es ist daher zweckm~il3ig, nicht die gesamte Konfiguration, sondern nur

oG

b|

Abb. 6. Graphische Darstellung der Bedingungen, die bei Abbruch vorliegen (vgl. Tab. 2)

die Angaben (c~, u, l~, s) als aktuelle Information im Robbimat weiterzugeben und die Restkonfiguration lest zu verankern. Der Ablauf des Eliminationsverfahrens ist in Tab. 3 zusammenfassend dargestellt. Mit dem Eliminationsverfahren l~ii3t sich jede Figur einer Figurenwelt, die endlich und zyklenfrei ist und v o n d e r eine Zerlegung der Menge T der

Tabelle 3. Das Eliminationsprogramm START: ANFANGS KONFIGURATION: Setze ~(f, a) : = l ftir alle Alternativen ( f a) und s : = 0. TEST: ABBRUCH: Welm s = 1, gehe nach P R O T O K O L L . A K T I O N S - R E A K T I O N S - S YSTEM: W~ihle eine Figuren-Aktions-Folge ~ = (fo, a 1 ;... ; f ~ - 1, d ; f~) mit f o = f o in Abhiingigkeit von c~ nach dem Schwellenwertverfahren mit O = 1. URTEIL: Wenn f i e T - , setze u z = u - , sonst u : = u +. KORREKTUR:

Tabelle 2. Bedingungen, die beim Abbruch des Eliminationsprog r a m m s auftreten, und Folgerungen Bedingung a. b. c. d.

Afo=O AIo=0 Afo=0 All=0

e. A : ~ = O

und und und und und

f~ f~ f~ flcT faeF

+ + +

Urteil

L~inge

Klassifizierung

uu+ u+ u+ u+

0 0 0 1 1

foeF foeF foeF foeF foeF

+ + -

S etze l~: = I. Falls u = u und 1> 1, setze c~(f l- 1, a l) : = 0 und gehe nach TEST. Falls u = u + und 1>2, setze 0c(f I 2, a / - 1 ) : = 0 und gehe nach TEST. Setze s : = 1 und gehe nach TEST. PROTOKOLL: Wenn l ~ 0 und u = u +, gib aus , , f o e F +'', sonst gib aus ,,foe F - " . STOP:

155

Endfiguren in Gewinn- und Verlustfiguren bekannt ist, als Gewinn- bzw. Verlustfigur klassifizieren.

Anwendun9 auf das 3 9 2-Kascha

wegen a(f6, a l ) = 0 nur/is2 = {%} aus. Also wird die Aktion a 5 gewgthlt und die Figur f 3 : = f l o erzeugt. Wegen Ay3 = 0 wird die Figuren-Aktions-Folge rc2 := (fo, a3; f2, as; f6, %; flo) in flo abgebrochen. Das Urteil lautet u = u +, und das Korrektursystem setzt l~: = 3 und ~(f2, %) := 0.

Wir erl~iutern das Eliminationsverfahren am Beispiel des 3.2-Kascha und orientieren uns dabei am Eliminationsprogramm (Tab. 3) sowie an den Dara I ~ ~ . . . . ol stellungen der Konstellation Robbimat (Abb. 2) und des Aktionssystems (Abb. 3). ~o 1 A 1 Nach dem Start wird die Anfangskonfiguration hergestellt. Dabei gentigt es, die Standard-Anfangsbewertung c~~ auf 1 und den Abbruchschalter s a u f 0 zu setzen, da die Restkonfiguration dutch Verfahrensparameter lest im Robbimat verankert ist. Noch unbestimmt bleiben die L~inge l~ und das Urteil u (Abb. 7a). b ( o~l,u§ l*,0) Nach Herstellung der Anfangskonfiguration wird am Abbruchschalter s gepriift, ob das Experiment abgebrochen werden soll. Da aber s = 0 gilt, erzeugt das Testsystem die Anfangsfigur f ~ , die dem Reaktionssystem mitgeteilt und an das Aktionssystem weitergegeben wird. Dieses erkennt Ayo = {a n, a3} und sondert wegen A j-o#:0 die Menge Aso = { a e A ~ o : ~(f~ a)__>l} aus. gs gilt J y o = { a l , a3}. C (=2,U+,3,0) Da Ayo nicht leer ist, wird eine Aktion aus Aio zuf~illig gew~ihlt. Wir nehmen an, die Wahl ffillt auf die Aktion a 3. Das Reaktionssystem wendet die Aktion a 1 := a 3 auf die Figur f o an und stellt die Folg~gaefigur f l := f2 her, die wiederum dem Aktionssystem eingegeben wird. In Fortsetzung dieses Beispiels stellen wir uns vor, dab durch das Wechselspiel zwischen dem Aktionsd ( e:3~u+~2~01 und dem Reaktionssystem die Figuren-Aktions-Folge rd := (fo, a I ; f 1, a2; f 2 , a3; f 3 , a4; f4) = (fo, aa; f2, as ; f6, an; f9, a4; f13) erzeugt wurde. Sie wird in f 4 =f13 abgebrochen, da AI4 = ~ gilt. Wegen f 4 r T - f~illt das Beurteilungssystem das Urteil u : = u +. Das Korrektursystem setzt l~ := 4, berechnet anhand des Testergebnisses (rd, u +) die Werte fl(fo, aX) = 1, fl(fa, a 2) = 1, fl(f2, a 3) = 0 und fl(f3, a4)= 1 und e [ ~t',u+, 2,01 setzt e(f, a):= fl(f, a) ftir alle (f, a) in rd. In dem Graphen der Abb. 7a ist die FigurenAktions-Folge rd durch einen doppelten Kantenzug cc41 O w ~ 0 markiert. Die Korrektur yon ~ bedeutet eine Neubewertung der durchlaufenen Kanten, wobei sich lediglich der Wert der vorletzten Kante ~indert. So entsteht der Graph in Abb. 7b. Wegen s = 0 wird ein weiterer Test durchgefiihrt. Um die Auswirkung der Korrektur zu verdeutlichen, f ( ~'5,u+,0,1 ) nehmen wir an, dab - - zuffillig - - anfangs mit a 3 und ~5=~.4 a 5 dieselben Aktionen gew~ihlt werden wie in rd. In der nun vorliegenden Figur f z = f 6 ermittelt das Abb. 7. Protokoll eines Robbimat-Experiments (EliminationsverAktionssystem wieder A r~={at, as}, sondert aber fahren beim 3,2-Kascha). N~ihere Erlguterungen im Text

156

Damit erhalten wir den Graphen der Abb. 7c. An diesem Graphen erkennt man nun unmittelbar, welche Figuren-Aktions-Folgen vom Aktions-Reaktions-System noch ,,whhlbar" sind; es sind diejenigen, deren zugeh6rige Kantenzfige nur fiber mit 1 bewertete Kanten laufen. Auf diese Weise w~ihlen wir die beiden folgenden Figuren-Aktions-Folgen n 3 und n 4, so dab durch die Korrekturen schlieglich der Graph ~4 entsteht. Bei dem nun folgenden Test bricht das Aktionssystem wegen A i o = 0 die Figuren-Aktions-Folge rcs := (fo) bereits in der Anfangsfigur ab und das Beurteilungssystem urteilt ,,u +''. Da in n s keine Korrektur durchgefiihrt wird, stellt das Korrektursystem den Abbruchschalter s auf 1. Das Testsystem bricht daraufhin das Experiment ab und fibergibt die Konfiguration dem Protokollsystem, das wegen l~ = 0 und u = u + in das Protokoll das Urteil ,,foe F+" aufnimmt. Wir folgern daraus: beim 3,2-Kascha ist die nachziehende Partei bevorzugt.

Literatur Ashby, W.R.: Design for a Brain. London: Chapman and Hall 1952 Bouton, Ch. L.: Nim, a Game with a Complete Mathematical Theory. Ann. Math., Ser. 2, 3, 35--39 (1901) Gardner, M.: Sci. Am. 206, 138--144 (1962) Gluschkow, W.M.: Theorie der abstrakten Automaten. Berlin: VEB Deutscher Verlag der Wissenschaften 1963 Luce, R. D., Raiffa, H.: Games and Decisions. New York: John Wiley &Sons 1958 Minsky, M., Papert, S.: Perceptrons. Cambridge (Mass.): MIT Press 1969 Pohley, H.-J., K6hne, K., Singer, A.: Uber das Lernverhalten des Automaten Robbi. Kybernetik 3, 226--238 (1967)

Pros H.-J. Pohley lnstitut fiir Entwicklungsphysiologie an der Universit~it zu K61n Arbeitsgruppe Kybernetik D-5000 K61n 41 Gyrhofstr. 17 Bundesrepublik Deutschland

[The problem-solving device Robbimat].

Biol. Cybernetics 17, 145--156 (1975) 9 by Springer-Verlag 1975 Der ProblemliSser Robbimat H.-J. Pohley, K. K6hne und W. Lange* Arbeitsgruppe Kyberne...
1MB Sizes 0 Downloads 0 Views