SupaeroDataScience · tdurivaux · Feb 13, 2018 · Mar 11, 2018 · Mar 11, 2018 · Mar 11, 2018
diff --git a/.gitignore b/.gitignore
@@ -1,2 +1,2 @@
-__pycache__/
-
+**/__pycache__
+Durivaux/.ipynb_checkpoints
diff --git a/Durivaux/FlappyAgent.py b/Durivaux/FlappyAgent.py
@@ -0,0 +1,35 @@
+import numpy as np
+from collections import deque
+from skimage import color, transform
+from keras.models import load_model
+
+stackedX = []
+call = 0
+actions = [119, None]
+dqn = load_model('dqn-925k.h5')
+# Choose a new action every REPEAT call
+REPEAT = 2
+lastAction = None
+
+def processScreen(screen):
+    """ Resize and gray-ify screen """
+    return 255*transform.resize(color.rgb2gray(screen[60:,25:310,:]),(80,80))
+
+def FlappyPolicy(state, screen):
+    global stackedX, call, actions, dqn, lastAction
+
+    screenX = processScreen(screen)
+
+    if call == 0: 
+        stackedX = deque([screenX]*4, maxlen=4)
+        x = np.stack(stackedX, axis=-1)
+    else:
+        stackedX.append(screenX)
+        x = np.stack(stackedX, axis=-1)
+
+    Q = dqn.predict(np.array([x]))
+
+    if call % REPEAT == 0 or REPEAT == 1:
+        lastAction = actions[np.argmax(Q)]
+    call += 1
+    return lastAction
diff --git a/Durivaux/Learning_curves.ipynb b/Durivaux/Learning_curves.ipynb
diff --git a/Durivaux/MemoryBuffer.py b/Durivaux/MemoryBuffer.py
@@ -0,0 +1,61 @@
+import numpy as np
+from collections import deque
+
+class MemoryBuffer:
+    """
+    An experience replay buffer using numpy arrays
+    """
+    def __init__(self, length, screen_shape, action_shape):
+        self.length = length
+        self.screen_shape = screen_shape
+        self.action_shape = action_shape
+        shape = (length,) + screen_shape
+        self.screens_x = np.zeros(shape, dtype=np.uint8) # starting states
+        self.screens_y = np.zeros(shape, dtype=np.uint8) # resulting states
+        shape = (length,) + action_shape
+        self.actions = np.zeros(shape, dtype=np.uint8) # actions 
+        self.rewards = np.zeros((length,1), dtype=np.float64) # rewards #was uint8
+        self.terminals = np.zeros((length,1), dtype=np.bool) # true if resulting state is terminal
+        self.terminals[-1] = True
+        self.index = 0 # points one position past the last inserted element
+        self.size = 0 # current size of the buffer
+
+    def append(self, screenx, a, r, screeny, d):
+        self.screens_x[self.index] = screenx
+        self.actions[self.index] = a
+        self.rewards[self.index] = r
+        self.screens_y[self.index] = screeny
+        self.terminals[self.index] = d
+        self.index = (self.index+1) % self.length
+        self.size = np.min([self.size+1,self.length])
+
+    def stacked_frames_x(self, index):
+        im_deque = deque(maxlen=4)
+        pos = index % self.length
+        for i in range(4):
+            im = self.screens_x[pos]
+            im_deque.appendleft(im)
+            test_pos = (pos-1) % self.length
+            if self.terminals[test_pos] == False:
+                pos = test_pos
+        return np.stack(im_deque, axis=-1)
+
+    def stacked_frames_y(self, index):
+        im_deque = deque(maxlen=4)
+        pos = index % self.length
+        for i in range(4):
+            im = self.screens_y[pos]
+            im_deque.appendleft(im)
+            test_pos = (pos-1) % self.length
+            if self.terminals[test_pos] == False:
+                pos = test_pos
+        return np.stack(im_deque, axis=-1)
+
+    def minibatch(self, size):
+        indices = np.random.choice(self.size, size=size, replace=False)
+        x = np.zeros((size,)+self.screen_shape+(4,))
+        y = np.zeros((size,)+self.screen_shape+(4,))
+        for i in range(size):
+            x[i] = self.stacked_frames_x(indices[i])
+            y[i] = self.stacked_frames_y(indices[i])
+        return x, self.actions[indices], self.rewards[indices], y, self.terminals[indices]
diff --git a/Durivaux/README.md b/Durivaux/README.md
@@ -0,0 +1,24 @@
+# Deep Q-learning for FlappyBird agent
+
+Implementation of a deep Q-learning method for a pixel-based agent with no prior knowledge.
+
+This work is based on Emmanuel Rachelson's Machine Learning classes (ISAE-Supaéro 2017-2018), alongside [this article](https://www.nature.com/articles/nature14236).
+
+This particular implementation has the following features:
+* the agent only chooses how to act every 2 frames, and repeats this action the next frame
+* two neural networks are used: the usual one and a target-generating one, with regular (every 2500 frames) weights transfers between the first one and the second one
+* training of the network is done every 5 frames for speed of training
+* training on minibatches (size: 32 frames)
+* replay memory (unlimited)
+* initial exploration, then (decreasing) epsilon-greedy actions
+* regular backup of the network: ability to choose the best one (based on learning curves)
+
+# Results
+
+Depending on the parameters, the target score of 15 can be reached in less than 200k frames. The proposed solution here took 925k frames for training, but reaches a much better average.
+
+![learning](./learning.png)
+
+Computation time, including lengthy evaluation periods: 6.5 hours (i7-4790K, GTX770, 16 GiB of RAM)
+
+Over 100 games: average of 116.16, with a maximum of 466.
diff --git a/Durivaux/dqn-925k.h5 b/Durivaux/dqn-925k.h5
diff --git a/Durivaux/learning.png b/Durivaux/learning.png
diff --git a/PyGame-Learning-Environment/ple/__init__.py → Durivaux/ple/__init__.py b/PyGame-Learning-Environment/ple/__init__.py → Durivaux/ple/__init__.py
diff --git a/...earning-Environment/ple/games/__init__.py → Durivaux/ple/games/__init__.py b/...earning-Environment/ple/games/__init__.py → Durivaux/ple/games/__init__.py
diff --git a/...ng-Environment/ple/games/base/__init__.py → Durivaux/ple/games/base/__init__.py b/...ng-Environment/ple/games/base/__init__.py → Durivaux/ple/games/base/__init__.py
diff --git a/...Environment/ple/games/base/doomwrapper.py → Durivaux/ple/games/base/doomwrapper.py b/...Environment/ple/games/base/doomwrapper.py → Durivaux/ple/games/base/doomwrapper.py
diff --git a/...vironment/ple/games/base/pygamewrapper.py → Durivaux/ple/games/base/pygamewrapper.py b/...vironment/ple/games/base/pygamewrapper.py → Durivaux/ple/games/base/pygamewrapper.py
diff --git a/...Learning-Environment/ple/games/catcher.py → Durivaux/ple/games/catcher.py b/...Learning-Environment/ple/games/catcher.py → Durivaux/ple/games/catcher.py
diff --git a/...ng-Environment/ple/games/doom/__init__.py → Durivaux/ple/games/doom/__init__.py b/...ng-Environment/ple/games/doom/__init__.py → Durivaux/ple/games/doom/__init__.py
diff --git a/...vironment/ple/games/doom/assets/README.md → Durivaux/ple/games/doom/assets/README.md b/...vironment/ple/games/doom/assets/README.md → Durivaux/ple/games/doom/assets/README.md
diff --git a/...nment/ple/games/doom/assets/cfg/basic.cfg → Durivaux/ple/games/doom/assets/cfg/basic.cfg b/...nment/ple/games/doom/assets/cfg/basic.cfg → Durivaux/ple/games/doom/assets/cfg/basic.cfg
diff --git a/...games/doom/assets/cfg/deadly_corridor.cfg → ...games/doom/assets/cfg/deadly_corridor.cfg b/...games/doom/assets/cfg/deadly_corridor.cfg → ...games/doom/assets/cfg/deadly_corridor.cfg
diff --git a/.../ple/games/doom/assets/cfg/deathmatch.cfg → .../ple/games/doom/assets/cfg/deathmatch.cfg b/.../ple/games/doom/assets/cfg/deathmatch.cfg → .../ple/games/doom/assets/cfg/deathmatch.cfg
diff --git a/...mes/doom/assets/cfg/defend_the_center.cfg → ...mes/doom/assets/cfg/defend_the_center.cfg b/...mes/doom/assets/cfg/defend_the_center.cfg → ...mes/doom/assets/cfg/defend_the_center.cfg
diff --git a/...games/doom/assets/cfg/defend_the_line.cfg → ...games/doom/assets/cfg/defend_the_line.cfg b/...games/doom/assets/cfg/defend_the_line.cfg → ...games/doom/assets/cfg/defend_the_line.cfg
diff --git a/...ames/doom/assets/cfg/health_gathering.cfg → ...ames/doom/assets/cfg/health_gathering.cfg b/...ames/doom/assets/cfg/health_gathering.cfg → ...ames/doom/assets/cfg/health_gathering.cfg
diff --git a/...ple/games/doom/assets/cfg/my_way_home.cfg → ...ple/games/doom/assets/cfg/my_way_home.cfg b/...ple/games/doom/assets/cfg/my_way_home.cfg → ...ple/games/doom/assets/cfg/my_way_home.cfg
diff --git a/...ames/doom/assets/cfg/predict_position.cfg → ...ames/doom/assets/cfg/predict_position.cfg b/...ames/doom/assets/cfg/predict_position.cfg → ...ames/doom/assets/cfg/predict_position.cfg
diff --git a/.../ple/games/doom/assets/cfg/take_cover.cfg → .../ple/games/doom/assets/cfg/take_cover.cfg b/.../ple/games/doom/assets/cfg/take_cover.cfg → .../ple/games/doom/assets/cfg/take_cover.cfg
diff --git a/...arning-Environment/ple/games/doom/doom.py → Durivaux/ple/games/doom/doom.py b/...arning-Environment/ple/games/doom/doom.py → Durivaux/ple/games/doom/doom.py
diff --git a/...ironment/ple/games/flappybird/__init__.py → Durivaux/ple/games/flappybird/__init__.py b/...ironment/ple/games/flappybird/__init__.py → Durivaux/ple/games/flappybird/__init__.py
diff --git a/...es/flappybird/assets/background-blank.png → ...es/flappybird/assets/background-blank.png b/...es/flappybird/assets/background-blank.png → ...es/flappybird/assets/background-blank.png
diff --git a/...ames/flappybird/assets/background-day.png → ...ames/flappybird/assets/background-day.png b/...ames/flappybird/assets/background-day.png → ...ames/flappybird/assets/background-day.png
diff --git a/...es/flappybird/assets/background-night.png → ...es/flappybird/assets/background-night.png b/...es/flappybird/assets/background-night.png → ...es/flappybird/assets/background-night.png
diff --git a/...ment/ple/games/flappybird/assets/base.png → ...vaux/ple/games/flappybird/assets/base.png b/...ment/ple/games/flappybird/assets/base.png → ...vaux/ple/games/flappybird/assets/base.png
diff --git a/...s/flappybird/assets/bluebird-downflap.png → ...s/flappybird/assets/bluebird-downflap.png b/...s/flappybird/assets/bluebird-downflap.png → ...s/flappybird/assets/bluebird-downflap.png
diff --git a/...es/flappybird/assets/bluebird-midflap.png → ...es/flappybird/assets/bluebird-midflap.png b/...es/flappybird/assets/bluebird-midflap.png → ...es/flappybird/assets/bluebird-midflap.png
diff --git a/...mes/flappybird/assets/bluebird-upflap.png → ...mes/flappybird/assets/bluebird-upflap.png b/...mes/flappybird/assets/bluebird-upflap.png → ...mes/flappybird/assets/bluebird-upflap.png
diff --git a/...le/games/flappybird/assets/pipe-green.png → ...le/games/flappybird/assets/pipe-green.png b/...le/games/flappybird/assets/pipe-green.png → ...le/games/flappybird/assets/pipe-green.png
diff --git a/.../ple/games/flappybird/assets/pipe-red.png → .../ple/games/flappybird/assets/pipe-red.png b/.../ple/games/flappybird/assets/pipe-red.png → .../ple/games/flappybird/assets/pipe-red.png
diff --git a/...es/flappybird/assets/redbird-downflap.png → ...es/flappybird/assets/redbird-downflap.png b/...es/flappybird/assets/redbird-downflap.png → ...es/flappybird/assets/redbird-downflap.png
diff --git a/...mes/flappybird/assets/redbird-midflap.png → ...mes/flappybird/assets/redbird-midflap.png b/...mes/flappybird/assets/redbird-midflap.png → ...mes/flappybird/assets/redbird-midflap.png
diff --git a/...ames/flappybird/assets/redbird-upflap.png → ...ames/flappybird/assets/redbird-upflap.png b/...ames/flappybird/assets/redbird-upflap.png → ...ames/flappybird/assets/redbird-upflap.png
diff --git a/...flappybird/assets/yellowbird-downflap.png → ...flappybird/assets/yellowbird-downflap.png b/...flappybird/assets/yellowbird-downflap.png → ...flappybird/assets/yellowbird-downflap.png
diff --git a/.../flappybird/assets/yellowbird-midflap.png → .../flappybird/assets/yellowbird-midflap.png b/.../flappybird/assets/yellowbird-midflap.png → .../flappybird/assets/yellowbird-midflap.png
diff --git a/...s/flappybird/assets/yellowbird-upflap.png → ...s/flappybird/assets/yellowbird-upflap.png b/...s/flappybird/assets/yellowbird-upflap.png → ...s/flappybird/assets/yellowbird-upflap.png
diff --git a/...Environment/ple/games/monsterkong/LICENSE → Durivaux/ple/games/monsterkong/LICENSE b/...Environment/ple/games/monsterkong/LICENSE → Durivaux/ple/games/monsterkong/LICENSE
diff --git a/...ronment/ple/games/monsterkong/__init__.py → Durivaux/ple/games/monsterkong/__init__.py b/...ronment/ple/games/monsterkong/__init__.py → Durivaux/ple/games/monsterkong/__init__.py
diff --git a/...ames/monsterkong/assets/asset_credits.txt → ...ames/monsterkong/assets/asset_credits.txt b/...ames/monsterkong/assets/asset_credits.txt → ...ames/monsterkong/assets/asset_credits.txt
diff --git a/...e/games/monsterkong/assets/background.png → ...e/games/monsterkong/assets/background.png b/...e/games/monsterkong/assets/background.png → ...e/games/monsterkong/assets/background.png
diff --git a/...nt/ple/games/monsterkong/assets/coin1.png → ...ux/ple/games/monsterkong/assets/coin1.png b/...nt/ple/games/monsterkong/assets/coin1.png → ...ux/ple/games/monsterkong/assets/coin1.png
diff --git a/...nt/ple/games/monsterkong/assets/coin2.png → ...ux/ple/games/monsterkong/assets/coin2.png b/...nt/ple/games/monsterkong/assets/coin2.png → ...ux/ple/games/monsterkong/assets/coin2.png
diff --git a/...nt/ple/games/monsterkong/assets/coin3.png → ...ux/ple/games/monsterkong/assets/coin3.png b/...nt/ple/games/monsterkong/assets/coin3.png → ...ux/ple/games/monsterkong/assets/coin3.png
diff --git a/...nt/ple/games/monsterkong/assets/coin4.png → ...ux/ple/games/monsterkong/assets/coin4.png b/...nt/ple/games/monsterkong/assets/coin4.png → ...ux/ple/games/monsterkong/assets/coin4.png
diff --git a/...nt/ple/games/monsterkong/assets/coin5.png → ...ux/ple/games/monsterkong/assets/coin5.png b/...nt/ple/games/monsterkong/assets/coin5.png → ...ux/ple/games/monsterkong/assets/coin5.png
diff --git a/...games/monsterkong/assets/fireballdown.png → ...games/monsterkong/assets/fireballdown.png b/...games/monsterkong/assets/fireballdown.png → ...games/monsterkong/assets/fireballdown.png
diff --git a/...games/monsterkong/assets/fireballleft.png → ...games/monsterkong/assets/fireballleft.png b/...games/monsterkong/assets/fireballleft.png → ...games/monsterkong/assets/fireballleft.png
diff --git a/...ames/monsterkong/assets/fireballright.png → ...ames/monsterkong/assets/fireballright.png b/...ames/monsterkong/assets/fireballright.png → ...ames/monsterkong/assets/fireballright.png
diff --git a/...t/ple/games/monsterkong/assets/ladder.png → ...x/ple/games/monsterkong/assets/ladder.png b/...t/ple/games/monsterkong/assets/ladder.png → ...x/ple/games/monsterkong/assets/ladder.png
diff --git a/...ent/ple/games/monsterkong/assets/left.png → ...aux/ple/games/monsterkong/assets/left.png b/...ent/ple/games/monsterkong/assets/left.png → ...aux/ple/games/monsterkong/assets/left.png
diff --git a/...nt/ple/games/monsterkong/assets/left2.png → ...ux/ple/games/monsterkong/assets/left2.png b/...nt/ple/games/monsterkong/assets/left2.png → ...ux/ple/games/monsterkong/assets/left2.png
diff --git a/...ple/games/monsterkong/assets/monster0.png → ...ple/games/monsterkong/assets/monster0.png b/...ple/games/monsterkong/assets/monster0.png → ...ple/games/monsterkong/assets/monster0.png
diff --git a/...le/games/monsterkong/assets/monster01.png → ...le/games/monsterkong/assets/monster01.png b/...le/games/monsterkong/assets/monster01.png → ...le/games/monsterkong/assets/monster01.png
diff --git a/...ple/games/monsterkong/assets/monster1.png → ...ple/games/monsterkong/assets/monster1.png b/...ple/games/monsterkong/assets/monster1.png → ...ple/games/monsterkong/assets/monster1.png
diff --git a/...le/games/monsterkong/assets/monster11.png → ...le/games/monsterkong/assets/monster11.png b/...le/games/monsterkong/assets/monster11.png → ...le/games/monsterkong/assets/monster11.png
diff --git a/...ple/games/monsterkong/assets/monster2.png → ...ple/games/monsterkong/assets/monster2.png b/...ple/games/monsterkong/assets/monster2.png → ...ple/games/monsterkong/assets/monster2.png
diff --git a/...le/games/monsterkong/assets/monster21.png → ...le/games/monsterkong/assets/monster21.png b/...le/games/monsterkong/assets/monster21.png → ...le/games/monsterkong/assets/monster21.png
diff --git a/...ple/games/monsterkong/assets/monster3.png → ...ple/games/monsterkong/assets/monster3.png b/...ple/games/monsterkong/assets/monster3.png → ...ple/games/monsterkong/assets/monster3.png
diff --git a/...le/games/monsterkong/assets/monster31.png → ...le/games/monsterkong/assets/monster31.png b/...le/games/monsterkong/assets/monster31.png → ...le/games/monsterkong/assets/monster31.png
diff --git a/...ames/monsterkong/assets/monsterstill0.png → ...ames/monsterkong/assets/monsterstill0.png b/...ames/monsterkong/assets/monsterstill0.png → ...ames/monsterkong/assets/monsterstill0.png
diff --git a/...ames/monsterkong/assets/monsterstill1.png → ...ames/monsterkong/assets/monsterstill1.png b/...ames/monsterkong/assets/monsterstill1.png → ...ames/monsterkong/assets/monsterstill1.png
diff --git a/...mes/monsterkong/assets/monsterstill10.png → ...mes/monsterkong/assets/monsterstill10.png b/...mes/monsterkong/assets/monsterstill10.png → ...mes/monsterkong/assets/monsterstill10.png
diff --git a/...mes/monsterkong/assets/monsterstill11.png → ...mes/monsterkong/assets/monsterstill11.png b/...mes/monsterkong/assets/monsterstill11.png → ...mes/monsterkong/assets/monsterstill11.png
diff --git a/...ple/games/monsterkong/assets/princess.png → ...ple/games/monsterkong/assets/princess.png b/...ple/games/monsterkong/assets/princess.png → ...ple/games/monsterkong/assets/princess.png
diff --git a/...nt/ple/games/monsterkong/assets/right.png → ...ux/ple/games/monsterkong/assets/right.png b/...nt/ple/games/monsterkong/assets/right.png → ...ux/ple/games/monsterkong/assets/right.png
diff --git a/...t/ple/games/monsterkong/assets/right2.png → ...x/ple/games/monsterkong/assets/right2.png b/...t/ple/games/monsterkong/assets/right2.png → ...x/ple/games/monsterkong/assets/right2.png
diff --git a/...nt/ple/games/monsterkong/assets/still.png → ...ux/ple/games/monsterkong/assets/still.png b/...nt/ple/games/monsterkong/assets/still.png → ...ux/ple/games/monsterkong/assets/still.png
diff --git a/...e/games/monsterkong/assets/wood_block.png → ...e/games/monsterkong/assets/wood_block.png b/...e/games/monsterkong/assets/wood_block.png → ...e/games/monsterkong/assets/wood_block.png
diff --git a/...nvironment/ple/games/monsterkong/board.py → Durivaux/ple/games/monsterkong/board.py b/...nvironment/ple/games/monsterkong/board.py → Durivaux/ple/games/monsterkong/board.py
diff --git a/...Environment/ple/games/monsterkong/coin.py → Durivaux/ple/games/monsterkong/coin.py b/...Environment/ple/games/monsterkong/coin.py → Durivaux/ple/games/monsterkong/coin.py
diff --git a/...ronment/ple/games/monsterkong/fireball.py → Durivaux/ple/games/monsterkong/fireball.py b/...ronment/ple/games/monsterkong/fireball.py → Durivaux/ple/games/monsterkong/fireball.py
diff --git a/...vironment/ple/games/monsterkong/ladder.py → Durivaux/ple/games/monsterkong/ladder.py b/...vironment/ple/games/monsterkong/ladder.py → Durivaux/ple/games/monsterkong/ladder.py
diff --git a/...nt/ple/games/monsterkong/monsterPerson.py → ...ux/ple/games/monsterkong/monsterPerson.py b/...nt/ple/games/monsterkong/monsterPerson.py → ...ux/ple/games/monsterkong/monsterPerson.py
diff --git a/...ironment/ple/games/monsterkong/onBoard.py → Durivaux/ple/games/monsterkong/onBoard.py b/...ironment/ple/games/monsterkong/onBoard.py → Durivaux/ple/games/monsterkong/onBoard.py
diff --git a/...vironment/ple/games/monsterkong/person.py → Durivaux/ple/games/monsterkong/person.py b/...vironment/ple/games/monsterkong/person.py → Durivaux/ple/games/monsterkong/person.py
diff --git a/...vironment/ple/games/monsterkong/player.py → Durivaux/ple/games/monsterkong/player.py b/...vironment/ple/games/monsterkong/player.py → Durivaux/ple/games/monsterkong/player.py
diff --git a/...Environment/ple/games/monsterkong/wall.py → Durivaux/ple/games/monsterkong/wall.py b/...Environment/ple/games/monsterkong/wall.py → Durivaux/ple/games/monsterkong/wall.py
diff --git a/...ning-Environment/ple/games/pixelcopter.py → Durivaux/ple/games/pixelcopter.py b/...ning-Environment/ple/games/pixelcopter.py → Durivaux/ple/games/pixelcopter.py
diff --git a/...me-Learning-Environment/ple/games/pong.py → Durivaux/ple/games/pong.py b/...me-Learning-Environment/ple/games/pong.py → Durivaux/ple/games/pong.py
diff --git a/...rning-Environment/ple/games/primitives.py → Durivaux/ple/games/primitives.py b/...rning-Environment/ple/games/primitives.py → Durivaux/ple/games/primitives.py
diff --git a/...arning-Environment/ple/games/puckworld.py → Durivaux/ple/games/puckworld.py b/...arning-Environment/ple/games/puckworld.py → Durivaux/ple/games/puckworld.py
diff --git a/...Learning-Environment/ple/games/raycast.py → Durivaux/ple/games/raycast.py b/...Learning-Environment/ple/games/raycast.py → Durivaux/ple/games/raycast.py
diff --git a/...ning-Environment/ple/games/raycastmaze.py → Durivaux/ple/games/raycastmaze.py b/...ning-Environment/ple/games/raycastmaze.py → Durivaux/ple/games/raycastmaze.py
diff --git a/...e-Learning-Environment/ple/games/snake.py → Durivaux/ple/games/snake.py b/...e-Learning-Environment/ple/games/snake.py → Durivaux/ple/games/snake.py
diff --git a/...g-Environment/ple/games/utils/__init__.py → Durivaux/ple/games/utils/__init__.py b/...g-Environment/ple/games/utils/__init__.py → Durivaux/ple/games/utils/__init__.py
diff --git a/...ning-Environment/ple/games/utils/vec2d.py → Durivaux/ple/games/utils/vec2d.py b/...ning-Environment/ple/games/utils/vec2d.py → Durivaux/ple/games/utils/vec2d.py
diff --git a/...rning-Environment/ple/games/waterworld.py → Durivaux/ple/games/waterworld.py b/...rning-Environment/ple/games/waterworld.py → Durivaux/ple/games/waterworld.py
diff --git a/PyGame-Learning-Environment/ple/ple.py → Durivaux/ple/ple.py b/PyGame-Learning-Environment/ple/ple.py → Durivaux/ple/ple.py
diff --git a/RandomBird/run.py → Durivaux/run.py b/RandomBird/run.py → Durivaux/run.py
diff --git a/Durivaux/run_with_display.py b/Durivaux/run_with_display.py
@@ -0,0 +1,31 @@
+from ple.games.flappybird import FlappyBird
+from ple import PLE
+import numpy as np
+from FlappyAgent import FlappyPolicy
+import time
+game = FlappyBird(graphics="fixed") # use "fancy" for full background, random bird color and random pipe color, use "fixed" (default) for black background and constant bird and pipe colors.
+p = PLE(game, fps=30, frame_skip=1, num_steps=1, force_fps=True, display_screen=True)
+# Note: if you want to see you agent act in real time, set force_fps to False. But don't use this setting for learning, just for display purposes.
+
+p.init()
+reward = 0.0
+
+nb_games = 100
+cumulated = np.zeros((nb_games))
+
+for i in range(nb_games):
+    p.reset_game()
+
+    while(not p.game_over()):
+        state = game.getGameState()
+        screen = p.getScreenRGB()
+        action=FlappyPolicy(state, screen)
+
+        reward = p.act(action)
+        cumulated[i] = cumulated[i] + reward
+    print("{}\t{}\t{:.1f}".format(i, int(cumulated[i]), np.mean(cumulated[:i+1])))
+
+average_score = np.mean(cumulated)
+max_score = np.max(cumulated)
+print()
+print("Average: {:.2f}\t Max: {:.0f}".format(average_score, max_score))