yapf

zsdonghao · zsdonghao · commit 26e2b0980458 · 2018-08-28T12:35:00.000+01:00
diff --git a/config.py b/config.py
@@ -14,7 +14,7 @@
 config.TRAIN.gamma = 0.333  # gamma of Adam
 config.TRAIN.weight_decay = 5e-4
 config.TRAIN.distributed = False
-config.TRAIN.train_mode == 'placeholder' # placeholder, datasetapi, distributed
+config.TRAIN.train_mode == 'placeholder'  # placeholder, datasetapi, distributed
 
 config.MODEL = edict()
 config.MODEL.model_path = 'models'  # save directory
diff --git a/inference.py b/inference.py
@@ -31,23 +31,16 @@
     _, _, _, net = model(x, n_pos, None, None, False, False)
 
     # get output from network
-    conf_tensor = tl.layers.get_layers_with_name(
-        net, 'model/cpm/stage6/branch1/conf')[0]
-    pafs_tensor = tl.layers.get_layers_with_name(
-        net, 'model/cpm/stage6/branch2/pafs')[0]
+    conf_tensor = tl.layers.get_layers_with_name(net, 'model/cpm/stage6/branch1/conf')[0]
+    pafs_tensor = tl.layers.get_layers_with_name(net, 'model/cpm/stage6/branch2/pafs')[0]
 
     def get_peak(pafs_tensor):
         from inference.smoother import Smoother
         smoother = Smoother({'data': pafs_tensor}, 25, 3.0)
         gaussian_heatMat = smoother.get_output()
-        max_pooled_in_tensor = tf.nn.pool(
-            gaussian_heatMat,
-            window_shape=(3, 3),
-            pooling_type='MAX',
-            padding='SAME')
+        max_pooled_in_tensor = tf.nn.pool(gaussian_heatMat, window_shape=(3, 3), pooling_type='MAX', padding='SAME')
         tensor_peaks = tf.where(
-            tf.equal(gaussian_heatMat, max_pooled_in_tensor), gaussian_heatMat,
-            tf.zeros_like(gaussian_heatMat))
+            tf.equal(gaussian_heatMat, max_pooled_in_tensor), gaussian_heatMat, tf.zeros_like(gaussian_heatMat))
         return tensor_peaks
 
     peak_tensor = get_peak(pafs_tensor)
@@ -56,8 +49,7 @@ def get_peak(pafs_tensor):
     sess = tf.InteractiveSession()
     sess.run(tf.global_variables_initializer())
     if model_file:
-        tl.files.load_and_assign_npz_dict(
-            os.path.join(model_path, model_file), sess)
+        tl.files.load_and_assign_npz_dict(os.path.join(model_path, model_file), sess)
 
     # get one example image with range 0~1
     im = tl.vis.read_image(input_file)
@@ -68,8 +60,7 @@ def get_peak(pafs_tensor):
     # 1st time need time to compile
     # _, _ = sess.run([conf_tensor, pafs_tensor], feed_dict={x: [im]})
     st = time.time()
-    conf, pafs, peak = sess.run(
-        [conf_tensor, pafs_tensor, peak_tensor], feed_dict={x: [im]})
+    conf, pafs, peak = sess.run([conf_tensor, pafs_tensor, peak_tensor], feed_dict={x: [im]})
     t = time.time() - st
     print("get maps took {}s i.e. {} FPS".format(t, 1. / t))
     # print(conf.shape, pafs.shape, peak.shape)
@@ -92,11 +83,10 @@ def estimate_paf(peaks, heat_mat, paf_mat):
                     continue
 
                 is_added = True
-                human.body_parts[part_idx] = BodyPart(
-                    '%d-%d' % (human_id, part_idx), part_idx,
-                    float(pafprocess.get_part_x(c_idx)) / heat_mat.shape[1],
-                    float(pafprocess.get_part_y(c_idx)) / heat_mat.shape[0],
-                    pafprocess.get_part_score(c_idx))
+                human.body_parts[part_idx] = BodyPart('%d-%d' % (human_id, part_idx), part_idx,
+                                                      float(pafprocess.get_part_x(c_idx)) / heat_mat.shape[1],
+                                                      float(pafprocess.get_part_y(c_idx)) / heat_mat.shape[0],
+                                                      pafprocess.get_part_score(c_idx))
 
             if is_added:
                 score = pafprocess.get_score(human_id)
diff --git a/models.py b/models.py
@@ -29,7 +29,7 @@ def stage(cnn, b1, b2, n_pos, maskInput1, maskInput2, is_train, name='stageX'):
             b2 = Conv2d(b2, 128, (7, 7), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c4')
             b2 = Conv2d(b2, 128, (7, 7), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c5')
             b2 = Conv2d(b2, 128, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c6')
-            b2 = Conv2d(b2, 38, (1, 1), (1, 1), None, 'VALID', W_init=W_init, b_init=b_init, name='pafs')
+            b2 = Conv2d(b2, n_pos * 2, (1, 1), (1, 1), None, 'VALID', W_init=W_init, b_init=b_init, name='pafs')
             if is_train:
                 b2.outputs = b2.outputs * maskInput2
     return b1, b2
@@ -87,25 +87,26 @@ def model(x, n_pos, mask_miss1, mask_miss2, is_train=False, reuse=None):
                 b1 = Conv2d(cnn, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c1')
                 b1 = Conv2d(b1, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c2')
                 b1 = Conv2d(b1, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c3')
-                b1 = Conv2d(b1, 512, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
+                # b1 = Conv2d(b1, 512, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
+                b1 = Conv2d(b1, 128, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
                 b1 = Conv2d(b1, n_pos, (1, 1), (1, 1), None, 'VALID', W_init=W_init, b_init=b_init, name='confs')
                 if is_train:
                     b1.outputs = b1.outputs * mask_miss1
             with tf.variable_scope("stage1/branch2"):
                 b2 = Conv2d(cnn, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c1')
                 b2 = Conv2d(b2, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c2')
                 b2 = Conv2d(b2, 128, (3, 3), (1, 1), tf.nn.relu, 'SAME', W_init=W_init, b_init=b_init, name='c3')
-                b2 = Conv2d(b2, 512, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
-                b2 = Conv2d(b2, 38, (1, 1), (1, 1), None, 'VALID', W_init=W_init, b_init=b_init, name='pafs')
+                # b2 = Conv2d(b2, 512, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
+                b2 = Conv2d(b2, 128, (1, 1), (1, 1), tf.nn.relu, 'VALID', W_init=W_init, b_init=b_init, name='c4')
+                b2 = Conv2d(b2, n_pos * 2, (1, 1), (1, 1), None, 'VALID', W_init=W_init, b_init=b_init, name='pafs')
                 if is_train:
                     b2.outputs = b2.outputs * mask_miss2
             b1_list.append(b1)
             b2_list.append(b2)
             # stage 2~6
             for i in range(2, 7):
                 b1, b2 = stage(
-                    cnn, b1_list[-1], b2_list[-1], n_pos, mask_miss1, mask_miss2, is_train, name='stage%d' % i
-                )
+                    cnn, b1_list[-1], b2_list[-1], n_pos, mask_miss1, mask_miss2, is_train, name='stage%d' % i)
                 b1_list.append(b1)
                 b2_list.append(b2)
         net = tl.layers.merge_networks([b1_list[-1], b2_list[-1]])
diff --git a/setup.cfg b/setup.cfg
@@ -0,0 +1,11 @@
+[yapf]
+based_on_style=google
+
+# The number of columns to use for indentation.
+indent_width = 4
+
+# The column limit.
+column_limit=120
+
+# Place each dictionary entry onto its own line.
+each_dict_entry_on_separate_line = True
diff --git a/train.py b/train.py
@@ -14,19 +14,15 @@
 from config import config
 from models import model
 from pycocotools.coco import maskUtils
-from tensorlayer.prepro import (
-    keypoint_random_crop, keypoint_random_flip, keypoint_random_resize,
-    keypoint_random_resize_shortestedge, keypoint_random_rotate)
-from utils import (PoseInfo, draw_intermedia_results, get_heatmap,
-                   get_vectormap, load_mscoco_dataset)
+from tensorlayer.prepro import (keypoint_random_crop, keypoint_random_flip, keypoint_random_resize,
+                                keypoint_random_resize_shortestedge, keypoint_random_rotate)
+from utils import (PoseInfo, draw_intermedia_results, get_heatmap, get_vectormap, load_mscoco_dataset)
 
 tf.logging.set_verbosity(tf.logging.DEBUG)
 tl.logging.set_verbosity(tl.logging.DEBUG)
 
-tl.files.exists_or_mkdir(
-    config.LOG.vis_path, verbose=False)  # to save visualization results
-tl.files.exists_or_mkdir(
-    config.MODEL.model_path, verbose=False)  # to save model files
+tl.files.exists_or_mkdir(config.LOG.vis_path, verbose=False)  # to save visualization results
+tl.files.exists_or_mkdir(config.MODEL.model_path, verbose=False)  # to save model files
 
 # os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
 # os.environ["CUDA_VISIBLE_DEVICES"] = "0"
@@ -83,16 +79,12 @@ def _data_aug_fn(image, ground_truth):
         mask_miss = np.bitwise_and(mask_miss, bin_mask)
 
     # image data augmentation
-    image, annos, mask_miss = keypoint_random_resize(
-        image, annos, mask_miss, zoom_range=(0.8, 1.2))
-    image, annos, mask_miss = keypoint_random_rotate(
-        image, annos, mask_miss, rg=15.0)
-    image, annos, mask_miss = keypoint_random_flip(
-        image, annos, mask_miss, prob=0.5)
+    image, annos, mask_miss = keypoint_random_resize(image, annos, mask_miss, zoom_range=(0.8, 1.2))
+    image, annos, mask_miss = keypoint_random_rotate(image, annos, mask_miss, rg=15.0)
+    image, annos, mask_miss = keypoint_random_flip(image, annos, mask_miss, prob=0.5)
     image, annos, mask_miss = keypoint_random_resize_shortestedge(
         image, annos, mask_miss, min_size=(hin, win))  # TODO: give size
-    image, annos, mask_miss = keypoint_random_crop(
-        image, annos, mask_miss, size=(hin, win))  # TODO: give size
+    image, annos, mask_miss = keypoint_random_crop(image, annos, mask_miss, size=(hin, win))  # TODO: give size
 
     # generate result maps including keypoints heatmap, pafs and mask
     h, w, _ = np.shape(image)
@@ -107,8 +99,7 @@ def _data_aug_fn(image, ground_truth):
     image = image * np.repeat(img_mask, 3, 2)
 
     resultmap = np.array(resultmap, dtype=np.float32)
-    mask_miss = cv2.resize(
-        mask_miss, (hout, wout), interpolation=cv2.INTER_AREA)
+    mask_miss = cv2.resize(mask_miss, (hout, wout), interpolation=cv2.INTER_AREA)
     mask_miss = np.array(mask_miss, dtype=np.float32)
     return image, resultmap, mask_miss
 
@@ -118,8 +109,7 @@ def _map_fn(img_list, annos):
     image = tf.read_file(img_list)
     image = tf.image.decode_jpeg(image, channels=3)  # get RGB with 0~1
     image = tf.image.convert_image_dtype(image, dtype=tf.float32)
-    image, resultmap, mask = tf.py_func(_data_aug_fn, [image, annos],
-                                        [tf.float32, tf.float32, tf.float32])
+    image, resultmap, mask = tf.py_func(_data_aug_fn, [image, annos], [tf.float32, tf.float32, tf.float32])
     return image, resultmap, mask
 
 
@@ -136,8 +126,7 @@ def _map_fn(img_list, annos):
     train_mask_list = train_data.get_mask()
     # train_targets = list(zip(train_objs_info_list, train_mask_list))
     if len(train_imgs_file_list) != len(train_objs_info_list):
-        raise Exception(
-            "number of training images and annotations do not match")
+        raise Exception("number of training images and annotations do not match")
     else:
         print("number of training images {}".format(len(train_imgs_file_list)))
 
@@ -160,21 +149,17 @@ def _map_fn(img_list, annos):
     your_objs_info_list = your_data.get_joint_list()
     your_mask_list = your_data.get_mask()
     if len(your_imgs_file_list) != len(your_objs_info_list):
-        raise Exception(
-            "number of customized images and annotations do not match")
+        raise Exception("number of customized images and annotations do not match")
     else:
-        print("number of customized images {}".format(
-            len(your_imgs_file_list)))
+        print("number of customized images {}".format(len(your_imgs_file_list)))
 
     # choice dataset for training
     # 1. only coco training set
     # imgs_file_list = train_imgs_file_list
     # train_targets = list(zip(train_objs_info_list, train_mask_list))
     # 2. your customized data from "data/your_data" and coco training set
     imgs_file_list = train_imgs_file_list + your_imgs_file_list
-    train_targets = list(
-        zip(train_objs_info_list + your_objs_info_list,
-            train_mask_list + your_mask_list))
+    train_targets = list(zip(train_objs_info_list + your_objs_info_list, train_mask_list + your_mask_list))
 
     # define data augmentation
     def generator():
@@ -183,8 +168,7 @@ def generator():
         for _input, _target in zip(imgs_file_list, train_targets):
             yield _input.encode('utf-8'), cPickle.dumps(_target)
 
-    dataset = tf.data.Dataset().from_generator(
-        generator, output_types=(tf.string, tf.string))
+    dataset = tf.data.Dataset().from_generator(generator, output_types=(tf.string, tf.string))
     dataset = dataset.map(_map_fn, num_parallel_calls=8)
     dataset = dataset.shuffle(buffer_size=2046)
     dataset = dataset.repeat(n_epoch)
@@ -197,19 +181,14 @@ def generator():
         # Train with placeholder can help your to check the data easily.
         # define model architecture
         x = tf.placeholder(tf.float32, [None, hin, win, 3], "image")
-        confs = tf.placeholder(tf.float32, [None, hout, wout, n_pos],
-                               "confidence_maps")
-        pafs = tf.placeholder(tf.float32, [None, hout, wout, n_pos * 2],
-                              "pafs")
+        confs = tf.placeholder(tf.float32, [None, hout, wout, n_pos], "confidence_maps")
+        pafs = tf.placeholder(tf.float32, [None, hout, wout, n_pos * 2], "pafs")
         # if the people does not have keypoints annotations, ignore the area
-        img_mask1 = tf.placeholder(tf.float32, [None, hout, wout, n_pos],
-                                   'img_mask1')
-        img_mask2 = tf.placeholder(tf.float32, [None, hout, wout, n_pos * 2],
-                                   'img_mask2')
+        img_mask1 = tf.placeholder(tf.float32, [None, hout, wout, n_pos], 'img_mask1')
+        img_mask2 = tf.placeholder(tf.float32, [None, hout, wout, n_pos * 2], 'img_mask2')
         num_images = np.shape(imgs_file_list)[0]
 
-        cnn, b1_list, b2_list, net = model(x, n_pos, img_mask1, img_mask2,
-                                           True, False)
+        cnn, b1_list, b2_list, net = model(x, n_pos, img_mask1, img_mask2, True, False)
 
         # define loss
         losses = []
@@ -218,12 +197,8 @@ def generator():
         stage_losses = []
         L2 = 0.0
         for idx, (l1, l2) in enumerate(zip(b1_list, b2_list)):
-            loss_l1 = tf.nn.l2_loss(
-                (tf.concat(l1.outputs, axis=0) - tf.concat(confs, axis=0)) *
-                img_mask1)
-            loss_l2 = tf.nn.l2_loss(
-                (tf.concat(l2.outputs, axis=0) - tf.concat(pafs, axis=0)) *
-                img_mask2)
+            loss_l1 = tf.nn.l2_loss((tf.concat(l1.outputs, axis=0) - tf.concat(confs, axis=0)) * img_mask1)
+            loss_l2 = tf.nn.l2_loss((tf.concat(l2.outputs, axis=0) - tf.concat(pafs, axis=0)) * img_mask2)
             losses.append(tf.reduce_mean([loss_l1, loss_l2]))
             stage_losses.append(loss_l1 / batch_size)
             stage_losses.append(loss_l2 / batch_size)
@@ -237,15 +212,14 @@ def generator():
         total_loss = tf.reduce_sum(losses) / batch_size + L2
 
         global_step = tf.Variable(1, trainable=False)
-        print('Config:', 'n_epoch: ', n_epoch, 'batch_size: ', batch_size,
-              'base_lr: ', base_lr, 'step_size: ', step_size)
+        print('Config:', 'n_epoch: ', n_epoch, 'batch_size: ', batch_size, 'base_lr: ', base_lr, 'step_size: ',
+              step_size)
         with tf.variable_scope('learning_rate'):
             lr_v = tf.Variable(base_lr, trainable=False)
 
         opt = tf.train.MomentumOptimizer(lr_v, 0.9)
         train_op = opt.minimize(total_loss, global_step=global_step)
-        config = tf.ConfigProto(
-            allow_soft_placement=True, log_device_placement=False)
+        config = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False)
 
         # start training
         with tf.Session(config=config) as sess:
@@ -292,14 +266,8 @@ def generator():
                 # os.path.join(config.LOG.vis_path, 'data_aug_{}.png'.format(i))
                 # tl.file.save_image()
 
-                [
-                    _, the_loss, loss_ll, L2_reg, conf_result, weight_norm,
-                    paf_result
-                ] = sess.run(
-                    [
-                        train_op, total_loss, stage_losses, L2, last_conf, L2,
-                        last_paf
-                    ],
+                [_, the_loss, loss_ll, L2_reg, conf_result, weight_norm, paf_result] = sess.run(
+                    [train_op, total_loss, stage_losses, L2, last_conf, L2, last_paf],
                     feed_dict={
                         x: x_,
                         confs: confs_,
@@ -308,35 +276,25 @@ def generator():
                         img_mask2: mask2
                     })
 
-                tstring = time.strftime('%d-%m %H:%M:%S',
-                                        time.localtime(time.time()))
+                tstring = time.strftime('%d-%m %H:%M:%S', time.localtime(time.time()))
                 lr = sess.run(lr_v)
-                print(
-                    'Total Loss at iteration {} is: {} Learning rate {:10e} weight_norm {:10e} Time: {}'.
-                    format(gs_num, the_loss, lr, weight_norm, tstring))
+                print('Total Loss at iteration {} is: {} Learning rate {:10e} weight_norm {:10e} Time: {}'.format(
+                    gs_num, the_loss, lr, weight_norm, tstring))
                 for ix, ll in enumerate(loss_ll):
-                    print('Network#', ix, 'For Branch', ix % 2 + 1, 'Loss:',
-                          ll)
+                    print('Network#', ix, 'For Branch', ix % 2 + 1, 'Loss:', ll)
 
                 # save some intermedian results
                 if (gs_num != 0) and (gs_num % 1 == 0):  # save_interval == 0):
-                    draw_intermedia_results(x_, confs_, conf_result, pafs_,
-                                            paf_result, mask, 'train')
+                    draw_intermedia_results(x_, confs_, conf_result, pafs_, paf_result, mask, 'train')
                     # np.save(config.LOG.vis_path + 'image' + str(gs_num) + '.npy', x_)
                     # np.save(config.LOG.vis_path + 'heat_ground' + str(gs_num) + '.npy', confs_)
                     # np.save(config.LOG.vis_path + 'heat_result' + str(gs_num) + '.npy', conf_result)
                     # np.save(config.LOG.vis_path + 'paf_ground' + str(gs_num) + '.npy', pafs_)
                     # np.save(config.LOG.vis_path + 'mask' + str(gs_num) + '.npy', mask)
                     # np.save(config.LOG.vis_path + 'paf_result' + str(gs_num) + '.npy', paf_result)
                     tl.files.save_npz_dict(
-                        net.all_params,
-                        os.path.join(model_path,
-                                     'pose' + str(gs_num) + '.npz'),
-                        sess=sess)
-                    tl.files.save_npz_dict(
-                        net.all_params,
-                        os.path.join(model_path, 'pose.npz'),
-                        sess=sess)
+                        net.all_params, os.path.join(model_path, 'pose' + str(gs_num) + '.npz'), sess=sess)
+                    tl.files.save_npz_dict(net.all_params, os.path.join(model_path, 'pose.npz'), sess=sess)
                 if gs_num > 3000001:
                     break
     elif config.TRAIN.train_mode == 'dataset':  # TODO
diff --git a/utils.py b/utils.py