顶点小说网 > 重生学神有系统 > 第394章 超参数全自动搜索
    江寒挂了电话,沉吟不语。

    老江关切地问:“没谈妥吗?”

    江寒摇了摇头,叹了口气:“谈下来一半。”

    “一半?”

    江寒点了点头:“大江入驻高新区,问题不是太大,只是时间上……最快也得排到下半年了。”

    周市长虽然对自己印象很好,但在原则问题上,一点也不肯松动。

    这就没办法了。

    江寒和老江研究了一下,最后还是决定出去租写字楼。

    但说实话,就算找得到理想的地方,只怕一时半会儿之间,也很难办妥,更要多掏不少钱。

    正说话间,夏如冰来上班了。

    不知不觉之中,她已经恢复了原本的明艳,精神状态更是十分良好。

    一见面,夏如冰就笑吟吟地打招呼:“老板早,江总早!”

    江寒洒然一笑:“早!”

    老江也儒雅地点头:“夏总早。”

    江寒打量了夏如冰一眼,忍不住旁敲侧击了一句:“小姨啊,看您的气色,这几天好像心情挺不错?”

    夏如冰嫣然巧笑:“是啊,闲了这么久,总算有点事做,当然开心了。”

    江寒:“……”

    这么敬业的吗?

    但他关心的,其实是她和老易俩人,到底有没有和好……

    “刚才你们两个,一本正经的,到底在研究什么?”夏如冰问。

    江寒将打算租楼的事情,跟夏如冰说了。

    夏如冰明媚一笑:“这事儿好办啊,盛夏这栋楼里,不是还剩不少地方吗?反正这么多地方,他们也用不了,稍微挪动一下,腾出一层、半层楼,问题应该不大。”

    江寒无语一秒:“这样不太好吧?”

    夏如虹能给自己两件办公室,加地下的机房,已经很难得了。

    如果再得寸进尺的话……

    夏如冰笑了笑:“这样吧,我打个电话问问,如果盛夏那边不方便,咱们再另外想辙儿。”

    江寒考虑了一下,点了点头:“也行,不过……别让夏阿姨为难。”

    “那当然。”

    夏如虹答应了一声,又说:“老板,一会儿会有不少人来应聘,你要不要把把关?”

    江寒洒然一笑:“好!不过我只负责技术人员,其他的职位,还要你和老江自己决定。”

    距离面试开始,还有一个多小时。

    江寒想了想,来到了隔壁。

    这个实验室布置好之后,一直没怎么用,今天正好试试机、找找感觉。

    这里配备了两台相当先进的电脑,和地下机房里的服务器直连,通过这两台终端,就可以方便地操作服务器。

    前天,江寒为了制作ocr软件,批量打造了上千个人工神经网络。

    其中绝大多数,都拥有一模一样的网络结构,只是引入的训练数据不同。

    这样训练出来的模型,也就只有权重参数上的区别……

    经过两天的训练,这些网络已经完全训练完毕。

    江寒将这些网络,组合到了一起,再套上一层事先准备好的,用vc++编写的简易ui。

    很快,ocr软件就初步成型,可以投入使用了。

    江寒思考了一下,命名为“极光ocr”。

    至于这个名字的含义……其实他没想那么多,就是觉得挺顺口的。

    然后,他又将源代码和可执行文件,全都用u盘拷贝下来,带走。

    这样晚上回家后,就可以正式启动那个计划,在虚拟空间里畅快地学习了……

    随后,江寒进入了虚拟空间。

    他为imagenet比赛编写的代码,还有相关的论文草稿,就保存在286电脑中。

    江寒很快将这些东西,发送到了外面的电脑中。

    然后又打开手机,把昨晚下载的训练数据、校验数据,也传送给这台终端电脑。

    程序有了,数据也有了。

    江寒又进行了一番算不上辛苦的调试,深度卷积神经网络终于基本成型。

    但在开始训练之前,还有一点工作要做。

    这个深度cnn,所拥有的参数实在太多了,哪怕原始数据有足足12万多条,也很很容易发生过拟合。

    所以,为了提升泛化能力,有必要做一下数据增广。

    数据增广的方案有许多。

    江寒思考了一下,选择了一种新方案。

    原始图像是256x256的分辨率。

    江寒设计了一个程序,从中随机扣出来224x224大小的区域。

    每张原始图像,都有^2=1024种不同的扣法,这样一来,就相当于将原始数据增广了1024倍!

    接下来,他又将得到的图像,全都水平镜像一次,就得到了等于原始数据2048倍的超大数据集合。

    增广完数据,江寒还觉得不够保险,为了进一步提高算法的效能,他决定对网络中用到的超参数,进行一些优化。

    以前他也做过人工神经网络超参数的优化,但那时采用的手段,主要是手动修改超参数,然后人工分析、比对。

    看修改了某个超参数后,网络的表现是上升了还是下降了,从而找出较为优秀的模型。

    不用说,这种做法最大的缺陷,就是效率实在太低。

    江寒在这次的比赛中,决定使用一种新技术。

    这是他前一阵子,煞费苦心设计出来的方案,代码复杂度令人发指。

    好在他的脑子够好用,在消耗了大量心血,吃掉了无数冰岛红极参之后,终于是开发成功了。

    功能很简单,就是自动对超参数进行搜索、优化,以找到结构更合理、性能更好的人工神经网络。

    江寒为这门技术取名assp。

    当然,其实就是“搜索超参数”的英文直译……

    assp的原理很简单,就是包装在人工神经网络模板外层的一个“壳”。

    通过一个调度函数,在训练神经网络之前,先按照事先确定的规则,微调某些超参数。

    每当完成一轮训练,还会按照既定的规则,从各个方面进行评分。

    比如,在梯度下降的过程中,模型是否收敛、收敛速度如何?

    不能收敛的网络,根本无法训练,也就毫无价值,如果收敛速度过慢,训练起来也会缺少效率。

    此外,网络模型在验证集中的表现,泛化能力、识别准确度、网络的稳健性……

    最后,将每次训练完成后,人工神经网络的综合得分,从高到低排一下序。

    江寒通过最后生成的表格,就可以选取合适的超参数组合了。

    为了让这个超参数搜索程序,获得更高的工作效率,需要先指定超参数的搜索范围。

    范围太大的话,会导致搜索时间过长,可能会等不及出结果;如果范围太小,又很可能找不到合格的超参数取值。

    这个搜索范围,可以看做sfsp的超参数,只能凭经验设定。

    好在江寒已经训练过许多次人工神经网络,有着十分充足的经验。

    他将assp和深度cnn的代码融合之后,连同训练数据、验证数据,全都上传到了地下数据处理中心的服务器里。

    差不多两天之后,assp就能得到初步的成果。

    至于整个cnn网络的训练,那可就有得等了。

    原始数据是12万多条,增广到2048倍之后,就是2亿4千5百万余条数据!

    数据量实在太庞大了,即使使用了gpu来提速,至少也需要5~7天,才能完成初步的训练。

    江寒让程序跑起来之后,就走出了实验室。

    打算回到游戏工作室里,休息一下,然后去主持面试。

    刚喝了两口水,手机忽然响了起来。

    来电是夏如虹的,江寒连忙接了起来,叫了声:“阿姨。”

    “你在哪了?”夏如虹声音温婉。

    “17楼办公室。”江寒回答。

    夏如虹打这个电话,主要是讨论写字机器人的销量和分成。

    写字机器人上市的时候,已经接近年底,所以截止2012年12月31日,只卖出了30多万台。

    按照当初的约定,江寒将获得3.5%销售额的分成。

    机器人的出厂价是每台558元,3.5%就是每台19.53元,30万台……

    江寒随便心算了一下,就得出了答案:580多万。

    这就比较让人愉快了。

    有了这笔钱,星空那边的钱,暂时就不急着动用了。

    这样也能避免不少汇兑、税费之类的损失……