电子工程专辑互动社区>自由讨论>通信与网络专区>微信语音识别与扫一扫技术的背后——采访微信技术团队
作者 问题:

微信语音识别与扫一扫技术的背后——采访微信技术团队

发布时间:2014-5-15 上午10:58

作者: EmmaLu

等级: 武林泰斗

积分: 25654分

发帖数: 1579次

网站总积分: 26072分

经验值: 2436.0

查看用户的所有发言

查看用户的个人e空间

需要确认注册邮箱后才能下载,立即确认我的邮箱
回复后可下载附件 关闭
我们时常听到对张小龙关于微信设计的研究,但很少注意到微信背后的技术团队。在早期版本中,由于主打信息沟通功能,微信技术上并无亮点,直到 4.3 版本之后,语音识别、扫一扫功能陆续的加入,新技术加上传感器的结合正在重新定义微信。

模式识别中心在应用层上有 2 大块,分别是语音和扫一扫,在微信团队看来,它们是人身体的延伸,有着很高的战略意义,所以必须有自主核心技术。


语音是站在了更高的起点上
题图为微信语音团队负责人卢鲤.jpg

微信语音识别给人突然冒出来的感觉,它的带队人是卢鲤,中科院博士毕业,研究方向是语音识别这块。2011 年苹果发布 Siri 后,语音一下子被大家重视起来,这其中也包括腾讯。腾讯在 2011 年底将语音识别作为科研项目在北京研究院启动,卢鲤进入腾讯带队,带领 3 个人进行攻坚。

其实从技术上讲,老牌的科大讯飞虽然积累了十年,但是由于相关的行业论文在技术研究上已经大大进步,知识储备更齐全,所以卢鲤算是站在一个更高的起点上,可以做到速度比科大讯飞快得多。

另外,按照云知声创始人梁家恩的说法,语音识别是“会者不难”,懂的人做起来要容易得多。卢鲤和梁家恩也互相认识,都是中科院出身,百度、搜狗的语音负责人也都是来自同门。

当然,做技术攻坚,其中的辛苦也是不为人知。语音识别技术从简单,到可以用,再到好用,中间是一个漫长的过程。卢鲤把每半年算一个节点,从研发开始到微信 5.0 发布,总共 3 个节点,每一个节点性能都有 40% 的提升,但是直到最后那个半年,语音识别才有真正的质变。

“这就相当于一个人吃了 9 张饼没吃饱,吃了最后一张饱了。”卢鲤说道。

这期间,他们经历过两次封闭开发,也有过张小龙的“循循善诱”。据悉,产品上线后,用户数量上升曲线都很健康,使用率很高。

在微信 5.0 的语音转文字功能中,很多人发现它的表现不输科大讯飞。腾讯在语音识别这块虽然起步不早(不到 2 年),但是在实际应用上已经走在了前列。


以自然的方式融入产品

Siri 虽然发布很成功,引爆了这个市场,但是最终却沦为用户调侃的对象,属于半成品。而语音该如何在微信中呈现,避免言过于实的现象,不仅考验着技术,还考验着产品能力。

卢鲤认为,语音是不是入口不重要,也不在乎,在乎的是语音识别能做什么事,就像从一个地方到另一个地方,最重要的是能到达,而不是中间发生了什么。

语音在微信中的呈现形式有三种:语音搜索通讯录、语音闹钟、语音转文字。从微信 4.3 到微信 5.0,语音的介入在一步一步深入,但同时也是受到严格限制,仅限于指定的功能,他们认为一旦放开使用范围,很容易面临华而不实的境地。

Siri 包含了语音识别、语义识别、搜索等,形成一个闭环,大多数语音 App 也是如此,但问题是,Siri 等产品暗示着用户可以做好任何事情,在技术还没准备好的情况下,产品很容易变为鸡肋。微信的考虑是反其道行之,让用户明白只能做这些事情,不要制造额外的期待。而且语音与通讯工具的结合,天然更加默契,卢鲤觉得:

??? “通讯录语音搜索,这在微信里是多么的自然。”

随着微信·公众合作伙伴大会的召开,微信的语音终于平台化,并加强垂直领域的体验,这都为微信商业化缔造了机会。他们接下来的研发目标仍然是提升精准度,完善技术细节,与人脑进行“PK”。


扫一扫的新技术有很多
微信扫一扫负责人刘海龙.jpg
微信扫一扫负责人刘海龙

按照扫一扫负责人刘海龙所说,扫一扫功能可以识别图像、文字、人脸、物体检索,甚至是增强现实,目前微信只推出了文字、图像识别,这是很多因素综合的结果。值得注意的是,微信扫一扫是采用视频的方式,数据在实时进行着传输,不借助本地的资源,扫一扫功能虽然是来源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上传识别。

实时自动的检测,让用户操作少了一步,就像摇一摇搜歌,结果会实时显示歌曲播放的位置。从上传后识别到实时识别,这并不是简单的技术迁移,这考验着对流量、处理速度的要求,以及云数据库搭建。这样做的好处不仅提升用户体验,而且使得前端轻,重活交给后端,以尽量让微信保持轻量化。

在扫一扫这块,微信可以说储备了一大批新潮的技术,包括名片识别、人脸识别、实景识别、物品检索、增强现实等。现有的街景扫描中,微信是根据你的地理位置而不是图像匹配,但刘海龙说,实景扫描这个是可以做的,但问题是这一功能需要大量流量和高速传输的网络,目前还不适合上线。4G 的上马将是很多新应用的机会,目前很多的工作还在与流量较劲。

扫一扫为何要放 5 个功能,为何二维码、条形码没有归一类?这背后同样是微信对产品设计的思考。刘海龙认为,5 个按钮清晰的告诉用户可以做什么,同时也提醒用户,只能做这些事情。扫一扫功能的理想状态应该是用户需要时出现,不需要时不出现。

以后,如果流量问题解决了,扫一张电影海报不再是指向影评网站,而是人从画面中走出来,自动播放预告片等。另外,物品检索、商品扫描等,这些事以前 PC 都做不了。

扫描的未来是让摄像头成为人类视觉的延伸,连接现实与虚拟世界,由于占据了极其重要的地位,微信的扫一扫很快会变得更加强大。

可以肯定的是,很多功能内部已经在逐个测试,视成熟度、用户需求是否上线。据说微信一次版本更新前会制作几十个版本,从中挑一个最好的版本上线。甚至,他们还会制作一个搭载新功能的微信推送给 100 万测试用户,研究使用率,语音转文字功能正是这样测试通过的。

微信快节奏的版本迭代并没有让他们工作状态太过辛苦,做前沿研究,和算法有很大关系,死憋是做不出来的,需要闲暇状态下的灵光一现,一旦想通了,做起来就快了。但由于有了微信,他们几乎是 24 小时在线,随时沟通工作。

在采访中,他们多次提到得益于微信平台,他们的技术才能有如此大的应用空间。微信紧贴用户,通过对摄像头、麦克风以及其他传感器上进行应用挖掘,已经大大改变微信的内涵。

?
微信团队工作环境: 广州 TIT 创意园
微信团队1.jpg
微信团队.jpg
?
微信团队2.jpg
?
来自爱范儿
EmmaLu 编辑于 2014-5-15 上午11:17
引用 回复 鲜花 ( 0) 臭鸡蛋 ( 0) 有新回复时发送邮件通知
电子工程专辑从教育看印度工程师的培养
第1楼

回复主题:微信语音识别与扫一扫技术的背后——采访微信技术团队

发布时间:2014-5-19 上午9:14

作者: 寻觅虚无

等级: 青铜长老

积分: 3693分

发帖数: 2371次

网站总积分: 3718分

经验值: 220.0

查看用户的所有发言

查看用户的个人e空间

需要确认注册邮箱后才能下载,立即确认我的邮箱
回复后可下载附件 关闭
嗯,把世纪之初的想法编程现实,顶一个
一个大学生完成电子设计的全过程 值得一读 (下载2665 次) 书上学不到的~某高手谈开关电源设计心得,经典~ (下载2575 次)
运放和比较器的根本区别 (下载2237 次) 焊接工艺(花了很多时间整理,图文并茂) (下载2668 次)
电子电路制作大全[PDF共6本] (下载128266 次) WiFi模块全总结 (下载4313 次)
引用 回复 鲜花 ( 0) 臭鸡蛋 ( 0)
电子工程专辑解析长虹5.5秒海尔10秒吉尼斯纪录的背后
第2楼 回复主题:微信语音识别与扫一扫技术的背后——采访微信技术团队 发布时间:2014-5-19 上午9:17

作者: sky蓝天白云

等级: 初入江湖

积分: 106分

发帖数: 6次

网站总积分: 120分

经验值: 2.0

查看用户的所有发言

查看用户的个人e空间

需要确认注册邮箱后才能下载,立即确认我的邮箱
回复后可下载附件 关闭
装x个毛啊
200个 三极管电路 集锦(国外的) (下载1933 次) 触摸屏基础知识大全 (下载9314 次)
Cadence完全学习教程(上) (下载2288 次) 华为和中兴详细工资构成对比 (下载3508 次)
掌握模拟电路设计的几套书 (下载3393 次) 高频电子电路考试试题全集(内附答案) (下载1772 次)
引用 回复 鲜花 ( 0) 臭鸡蛋 ( 0)

与?微信,扫一扫,微信技术,语音识别?相关的话题
?
快速回复
用户名:?
美国的游客?????? (您将以游客身份发表,请登陆 | 注册 ) ?
标题: * 你还可以输入80
评论: * 你还可以输入10000
分享到: 新浪微博?? qq空间?? qq微博?? 人人网?? 百度搜藏??
验证码: ?*?
维护专业、整洁的论坛环境需要您的参与,请及时举报违规帖子,如果举报属实,我们将给予相应的积分奖励。
谢谢您的热心参与!
返回通信与网络专区 | 返回自由讨论
本论坛仅陈述专家或个人观点,并不代表电子工程专辑网站立场。
返回论坛页首
有问题请反馈