1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代(2)-木庄网络博客

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

让设备能听得清，也要让它能够很好地表达出来，语音合成是我们当前在电视人机交互中很多用户不满意的核心问题之一。他们一直跟我反馈，说我们现在的语音合成太机械化，太呆板，没有情感。因此我们在2.0的版本中采用讯飞最先进的极致拟人合成能力，在昨天的发布会中已经提出来了，我们让虚拟人的交互更有情感，它到底是什么样的体验呢，我们先看一个小视频。

这是基于现在实际的系统做的模拟，我想问一下现场的嘉宾，你们能听出来哪些是合成、那些是人声吗？其实我也不知道，我们的产品经理把实际发音人和系统合成音做了混合对话设计，他把它藏在了里面。

可以说我们极致虚拟人的语音合成，让虚拟人交互更有情感，它还有10+其他年龄、性别、场景发音人增加到电视大屏当中去。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

设备能听会说，不代表它能懂，我们觉得如何让用户有更好的体验，我们在2019年联合杭研、福建移动在行业首发了一套基于大屏的人机交互评价体系和标准，我们叫“懂有畅快暖”用户体验体系。这个体系一提出，得到了很多行业人士的认可，端到端的交互成功率从86%提升到91.8%，让端到端的服务体验更加完善。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

除了三大能力提升之外，还基于诸多场景做了核心的功能创新，有代表性的主要有三个：

第一个“能聊”。我们在做用户访谈时，他们说现在的人机交互是简单的任务性、指令性交互，就是一问一答，我想看中央一套，我们帮他放中央一套；我想看刘德华的电影，我们就帮他放刘德华的电影，但是一旦跳出任务指令，AI就显得非常傻。

所以在新一代的人机交互当中，把讯飞最先进的情感型对话纳入了2.0系统，它可以通过机器人的多情绪识别表达，让现在的虚拟人具备实时新闻热点能力，具备文学、历史知识，也具备政治、军事知识，可以跟大屏前的用户做多场景下的复杂对话。而且这个功能有一个非常大的拓展，人一旦和虚拟人建立了信任、情感之后，我们就可以基于这种情感式的对话，挖掘更多的基于用户在内容上的个性化、场景化的服务推荐和需求，这项功能也会开放给所有的运营商、服务合作伙伴。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

第二个“会认”。从传统的语音和现在的图像、视频识别相结合，刚才何总在做元宇宙介绍的时候也多次强调，这是我们多模态识别核心。现在的电视大屏正是因为摄像头和机顶盒、电视业务相结合，使得我们面向多人场景下的图像、声音多模态融合识别技术有了更多广泛的应用场景。现在在家庭看电视的情况下，可能有多个角色，但是这多个角色都可以跟我们电视进行人机交互。如果只是传统的语音识别，我们很难做到清晰的声音定位和远场角色识别。有了图像之后，可以把声音和人脸识别检测结合，还有主论坛发布的唇形识别相结合，使得我们的语音识别指令能够更加清晰定位到用户，让远场的交互更加清晰、更精准。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

第三个“更安全”。电视业务运营商和服务提供商都知道，对于电视大屏内容安全是我们做电视业务从业者非常关注的。讯飞基于当前整个声音+文字的监控技术，基于语义的敏感内容识别，我们和广科院有非常深的研讨，使得我们现在基于电视大屏语音转文字的能力可以在新的2.0产品中隆重上线。它为我们在电视大屏端创造出更多的应用场景，包括很多合作伙伴说的怎么样才能把大屏的轻社交属性做好，能不能上弹幕的功能，还有用户反馈说运营商有一些很老、很早的视频，这些视频内容没有字幕，能不能把讯飞的字幕转写，把听见转写能力加上去，因此我们在iFLYHOME OS 2.0当中把整个的转写、翻译能力也实时提供给应用的合作伙伴，使得我们真的在大屏社交方向上，可以在电视大屏上做新的应用探索。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

刚才我把基于iFLYHOME OS的三大能力提升和三大功能给大家做了简单的介绍。

大家一直说“耳听为虚，眼见为实”，那么它真实的效果怎么样呢，我们的小伙伴做了一个视频，请看大屏幕。这是我们做的一些简单的功能视频模拟，展览馆的科技馆、生活馆都有对应的展区，也欢迎我们的合作伙伴们、开发者们到展厅现场体验我们最新的基于电视大屏的人机交互系统，也欢迎大家能给我们提出更多的宝贵性的改进意见。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

所有2.0的功能也面向全行业做全能力的逐步开放，包括给合作伙伴有标准化的虚拟人快速定制系统，还有面向多领域的垂直方向上的能力下沉，包括刚才讲的大屏轻社交、大屏康养、大屏政务、大屏教育等多个领域，都可以做到很好的语音语义、多模态识别支持。同时针对合作伙伴，也把整个接口进行了标准化的对接，使得我们的各项开发工作可以更加高速、高效、快捷。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

未来我们会持续地把很多多模态的最新技术与现在的iFLYHOME OS 2.0系统相结合，提供给诸多的产品、应用、合作伙伴，包括情绪感知、体感识别、表情识别、远场手势识别能力，会陆续的在我们的系统当中定期发布。

举一个简单的场景――远场手势识别。上半年，有一个合作伙伴是做棋牌的，他很想把现在很火的象棋、围棋搬到电视大屏上，怎么都找不到解决方案，为什么呢？不管是用遥控按键，还是语音，都没有办法解决在电视大屏场景下去下棋这个核心场景。我们用远场手势识别，让爸爸、爷爷坐在沙发上，用两个简单的动作，一拿，一放，就能解决在电视大屏当中的棋牌场景落地。我坚信我们把诸多的新技术放到多模态解决方案中，会给未来大屏端的应用和服务带来更多的创新以及更大的广阔的发展空间。

1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代