卷积神经网络是深度学习系统的重要组成部分,在图象识别、人脸识别、汉字识别,以及自然语言处理中,有很广泛的应用。那么,什么是卷积神经网络呢? 我们先来看看什么是卷积。 图1. 卷积示意图 上图是一个卷积示意图。输入是一个5*5的矩阵,中间是一个3*3的卷积核,输出是一个3*3的矩阵。首先设置一个与卷积
对于计算机而言,汉字的输入远不象英文那么方便。为了让计算机“接受”汉字,人们设计了各种输入法,其中拼音输入法最自然,应用也最广泛。 早期的拼音输入法是逐字输入的,即用户输入拼音,计算机提示该拼音对应的汉字,用户再从中进行选择。由于汉语中一个拼音可能对应大量汉字,人们不得不在一个长长的列表中进行选择,
给一幅现在的照片,如果能生成童年时的模样,将唤起很多美好的回忆。现在,人工智能可以帮助你实现这个梦想。 图1是Tennessee大学2017年的一篇论文中给出的方案[1]。在这一方案中,输入照片通过一个神经网络编码器E映射到隐空间中的点z,这个z代表了年龄以外的人脸信息。在z上附加一个表示年龄的信息
先看看下面一组照片。最上面四张是祖父母、外祖父母的照片,第二行是父母照片,最下一行是孩子照片。 你可能没想到的是,父母和孩子的照片都是用深度神经网络生成的。这是腾讯AI lab和天津大学去年的一个工作[1]。是不是看着还挺像的? 图1:由祖父母自动生成的父母和子女照片[1]
二十年前开车还是靠一张地图走天下,现在如果没有导航几乎是寸步难行了。早期导航还存在一些缺陷,现在的导航还是非常靠谱的,绝大多数情况下不会出错。 导航的核心任务是在地图上找到一条从起点到终点的路径,称为路径规划。最简单的路径规划是找到一条从起点到终点的“最短路径”。Dijkstra算法是一个经典的最短
开车走在路上,听着导航里志玲姐姐给你带路,是件非常愉快的事。这么甜美的导航声音是如何产生的呢?今天我们就聊一聊背后的语音合成(Speech Synthesis)技术。 让机器像人一样开口说话是人们很早就有的梦想,但真正的研究还是在Leonhard Euler在1750年左右建立了声音的物理学原理之后
机器学习里有一条著名的原则:如果两个模型具有类似的性能,那么选更简单的那个。这条原则称为奥卡姆剃刀准则(Occam’s Razor)。奥卡姆是个人名,英国中世纪哲学家。奥卡姆剃刀倒不是说奥卡姆给人剃头,而是比喻用法,意思是“删掉不必要的复杂性”[1]。 奥卡姆剃刀是一个准则,而不是一个定理。这一准则
所谓维度灾难,从最通常的意义上讲,是指当维度升高时,会产生与低维场景很不相同的现象。这一概念最早由Richard E. Bellman在研究动态规划算法时提出[1]。对机器学习来说,维度升高带来的一个明显“灾难”是数据稀疏。 1. 高维度带来数据稀疏 我们知道,基于统计的机器学习模型要对数据的“真实
车牌识别是目前应用最广泛的AI技术之一。那么,机器是如何识别车牌的呢?我们以一个实际运行的系统为例来说明,该系统的目的是在校园主干道上监控超速车辆,目前已经在重庆科技学院稳定运行超过一年时间。 1. 入场监控 车辆进入监控视野时需要触发系统的监控行为。现有的入场监控方式主要有两种方式:第一种是地感线
我国历史源远流长。在漫长的历史发展过程中,历代文人墨客撰写了无数珍贵典籍,形成了我国所特有的灿烂文化。在计算机高速发展的今天,有必要利用现代化信息处理手段,对这些宝贵的文化遗产进行整理和研究,其中一个重要的问题就对古籍进行数字化处理。一方面,古籍数量庞大,存储和使用不便。以文渊阁《四库全书》为例,全
未来社会,随着智能机器人越来越多,人类与机器人之间应该如何相处?阿西莫夫在小说集《我,机器人》中首次就未来社会的人机伦理关系进行了思考,提出了著名的“机器人三定律”: 第一定律:机器人不得伤害人,也不得见人受到伤害而袖手旁观; 第二定律:机器人应服从人的一切命令,但不得违反第一定律; 第三定律:在不
在现实生活中,我们经常会遇到求解最佳路径问题,比如导航软件要求从S点到G点的最短路径,A*算法就是一个有效的求解最佳路径的搜索算法。 假设我们在地图上求从S出发到达目标G的最短路径,每一个路口可以视为一个状态,最短路径问题就是在地图上找出一个从S到达G的状态序列,使得沿着这一状态序列行走的距离最短。