重点嘉宾演讲

  音乐创作我们不说了,后面我们有一段语音的介绍给大家听听。我们听一下这首歌,这是我们给山东卫视演唱的一首歌叫《幸福出发》。我们做这个东西的目的不是让它唱整首歌,而是验证机器今天去模拟人的声音,我们正在帮中国几个唱片公司做他们歌手虚拟化的项目,虚拟化的项目到什么地步?让机器重新做完这个歌手的歌发回去给他们,他们CEO说我们歌手从来没唱过这首歌,唱的不好吗?不是,这是是机器做的。

  今天我们认为一些好的资源,好的声音的资源同样它可以低成本被用来教育工作。过去很多东西大家认为不合适,机器的声音度、自然度太低,当自然度太低的时候,达不到一定的标准。这是为什么他们对人的声音特别的敏感。把声音的技术,如何去考验一个声音的技术的实施程度或者成熟程度呢?我们在音乐领域之前包括教育领域之前,尝试另外一个垂直领域就是在广电领域,让广电领域用机器的声音,用这种技术去制作广播和电视的节目。到目前为止我们已经在大概超过49家广播和电视台,生产了1868个小时广播电视节目,这几乎大概是等同于中国如果在广播电视局公司里面能排到前十位的位置。同样这种成本几乎只有人类制作团队4.5%,我给大家看它制作出来的效果。

  这里边其实生产大量的广播电视节目,上个月上海举办中国广播大会上,用我们技术,一共有三家获奖,用我们这个技术,今天你生产广播节目成本将会非常低,能实现一边听广播,一边和广播的主持人进行实时交流。

  同样道理我们上个月宣布我们拥有绘画和设计能力,我们和中国纺织工业协会推出第一代,由机器根据他们设计师设计主题的布料和服装进行创作,这在上海展示过了。

  文本撰写,我们讲说机器在文本撰写方面极致会达到什么地步?今天在中国我不知道大家炒不炒股票和买不买基金,中国金融市场95%的沪深两市其他主要金融摘要信息都是由机器生产,持续到目前为止已经8个月了,这是非常严肃的金融信息的生产。它的记录是非常高的可靠性和成熟度。

  我们讲讲今天跟教育主题可能是有一些相关的,我们刚才讲了文本生成,讲了声音。把所有东西都结合在一起可以做什么?我给大家看一下我们尝试的一个小小的东西。

  (播放VCR)

  大家刚才听到的这段音频是百分之百由机器生产,现在我们人工智能技术可以做到你只要把这段文字给机器,机器通过自然语言理解来判别这段故事有几个角色,为每一个角色分配声音处理不同的声音。同时根据这个角色讲的内容来决定她朗读的语气。最后我们为什么提出做词曲创作呢,整个这段背景音乐是机器自己生成。这里没有任何版权问题,全是机器自己生产。这里角度来讲,这里最大的变化在于说这个过程速度非常快,我们今天讲一个200小时格林童话人生产要读多长时间,机器来做17分钟就能做完。我们从去年的11月份开始到今年3月,每天找一些公版的有声读物放服务器里面,然后人就回家了,第二天早上回来机器生产完了,我们到现在已经生产了1680个小时的公版的有声读物。

  从3岁听到6岁,每天不停的听不重样也听不完。同时我们把这项技术给当当包括其他的出版社用来生产有声读物,整个有声读物的生产的效率和速度能得到极大的提升。喜马拉雅搜索小冰讲故事,我们把所有生产的东西都放在上面让大家去验证。这个技术的改变可能是改变我们对所有内容的生产的方式、生产的效率以及消费它的方式。生产效率和生产方式可以理解,今天可以让机器生产,机器可以低于人的成本。那什么是消费方式呢?这个生产技术流程我稍微说一下。在所有过程里面,你知道我们可以让机器不用线性生产,但是生产完了之后如果你要去检查的话,你也是要花一样的时间。一个20分钟故事不快进也要听20分钟。怎么解决这个问题?我们研发另外一套系统机器自我去审听多音字的错误。包括各种问题,我们做了免检,可以把准确率免检提高到97%,就意味着今天机器自动生产有声读物的质量能够超越我们今天在所有有声读物市场上,比如今天喜马拉雅上绝大多数的人类有声读物生产者读的东西,在准确率是要高于他们。当然这种技术永远不会替代今天人类社会最顶尖的有声读物生产者,比如今天在中国比如凯叔讲故事,凯叔生产的东西由导演反复策划包括后期修,我们比不了。但是大规模生产领域,技术其实现在已经?挥形侍狻?

分享到: