清华大学史元春:人工智能使人机交互成为现实

发布于:2018/1/17 9:26:43 | 753 次阅读

  1月15日消息,在“新时代 新发展”的清华五道口金融EMBA&EE 2018年新年思想汇活动中,清华大学计算机系人交互与媒体集成研究所长、信息科技术国家实验室普适计算研究部主任、创新学院 (GIX) 学院院长史元春,进行了题为“智能交互——让机器更懂你”的分享。她认为在普适计算机时代,随着更多的嵌入式设备的出现,如何更加自然地进行人机之间的信息交换具有重要意义。

  史元春指出,在计算机几十年的发展过程中,人机交互也就是人和机器之间的信息交换的技术,我们可以不夸张的说,也是一项引领性的技术。而人工智能和大数据的进步使人机交互成为现实、可用。

  史元春认为,人机交互的目的是为了让机器更懂“你”,让用户更加自如。她还通过“胖手指”、“空中打字”等案例分享了人机交互领域一些前沿的技术突破。

  “智能技术的研究,也就是我们把一些模糊和用户行为习惯识别为具体、准确交互意图的研究,大有可为”,史元春认为,未来有望通过数据采集和建模来捕捉用户的所有姿态和行为,从而生产出真正理解用户的手机,让手机交互行为的感知更加精准和智能。

  史元春表示,人工智能技术的深度应用,能做到从模糊的行为习惯中解读出准确的意图,将为未来人机共生提供可靠的技术基础。

  以下为史元春演讲实录:

  各位下午好,非常荣幸有这个机会和五道口金融学院的老师和学生们交流,我叫史元春。我跟大家的经历不太一样,来自于计算机系。并且我在这个学校和计算机系有30多年了,从学生到老师。简介中谈到我是GIX学院院长。GIX的英文叫Global Innovation Exchange,是清华大学创新学员,它也是清华个在海外办起来的学院。

  是我们在两年多以前在美国的西雅图和华盛顿大学联合创办,也很欢迎我们更多的五道口金融学院的同学,能够有机会去西雅图,我们清华那样一个特别的学区来学习和交流。

  今天这个演讲的题目是关于我的科研的,科目叫智能交互。这里的交互是指人机交互。我们知道计算机的发展历史只有几十年,不是很长,但是这几十年来它已经和正在为我们的社会发展带来了巨大的变化,在计算机几十年的发展过程中,人机交互也就是人和机器之间的信息交换的技术,我们可以不夸张的说,也是一项引领性的技术。

  从我的这个表上大家应该可以看的出来,随着接口技术的变化,交互模式也发生了变化,计算机从实验室、机房已经走到了我们的办公室、家庭,甚至今天已经都走到了我们的手上,计算机的台数也发生了极大的数量级变化。

  到了今天,我们已经走到了所谓的普适计算的时代,也就是说在我们的工作和生活的很多方面,我们有特殊的手持的设备,像今天的手机,也有更多的嵌入式的系统,像家电设备,还有更多实业以及社会生活场景会有越来越多这样的设备,我们人们会有更多、更频繁的,并且希望与更自然的方式,和这个机器发生着关系。

  也就是说我们可能会与手持的设备、家电的设备、穿戴的设备,机器人和无人车,以更自然的模态,G比如说包括用语音、用语义丰富的手势,甚至是我们日常的行为,在很多的场景中,可以跟机器的系统,计算的系统发生互动,有效的来进行信息访问和信息系统提供给我们的现实服务。这些接口、终端和任务,我都在我们使用过程中,首位的自然,就是需要我们的人不需要那样很精准的表达,是一种模糊的表达和传达的方式。

  但是,在机器端能够给我们精准的理解和服务。

  我们今天的这些交互方式其实还是很规范的,甚至我们都在用的手机,它是一个严谨的结构,一个抽象的概念,我们有一点的学习甚至是记忆的附和,还要有比较准确的表达。

  如果要实现这个人的模糊的表达,到精准的服务之间,需要克服这样一些技术挑战:

  比如我们的交互意图很内在,那么我们获得的数据随机性很大,用故行为的差异性也非常大,应用的场景也是各式各样的。因此,这些问题需要我们在相应的研究中来进行克服,并且人机交互它既包括我们所使用的各种直接的、离用户很近的接口也包括一个交互过程的优化。这里我简单看看接口,它应该保包括从我们人机交互的研究来看,包括计算机用户,输入接口和计算机处理结果,反馈给用户的输出接口。

  从输入来看也就是说我们的人意念产生了一个访问的请求,当然未来如果我们的脑机接口的技术,也就是所谓读脑的技术能够发明的话,那我们就可以直接来获取这个用户的意图。但是,大家可以看到我这个图上画的还是一个虚线,今天还是不太现实的,那么我们的意念还是要通过我们的行为系统传达给机器。

  我们的行为可以是在使用工具,也可以刚才讲到,像自然语言和各种姿态。

  今天在我们的传感技术和识别的技术都有了很多的进步,比如说大家用的这个手机屏,可能留了一个小刘海,今天的大手机屏,那是因为那个上面有10几个传感器,还不能在屏下,只能单独的露出来。我们现在的家庭里面可能已经有智能音箱来帮助我们服务,这个是语音识别技术的进步。甚至于人脸识别已经变成了我们这种身份ID。

  这些技术实际上在几十年前都已经提出来,最近的人工智能和大数据的进步使得成为现实、可用。但是,在交互接口上还有很多需要优化和需要创新的的一些方面。这里我举两个具体的例子:

  大家都有用手机,手机上面我们还是要有我们本输入这样一个基本的任务的。大家在用微信,今天这个场合也有几个人在用,这个时候你通常是在敲,而不是用语音识别,因为需要一个静默的环境。你敲的时候,大家如果用过电脑的话,你会觉得你的速度比用物理键盘慢了一倍,为什么慢?这就是人机交互中很典型的一个问题“胖手指问题”,是因为我们的手指,远比我们点击的对象要模糊的多。也就是对象的精准点击,用我们的fat finger是很难完成的,所以点不准你就慢下来了。

  今天在场有不少人也戴了智能手表,就像这个图一样,我可以给你装一个软件,也会有一个软件全键盘,但有人会用吗?你肯定想着我不会用,因为与我们在手机上进行输入的速度和体验来说,2毫米的小键盘根本不可能用,这是一个典型的fat finger问题。

  可以给大家看一个我们在实验室的研究结果,我们在手机上做了一个全键盘,会看到输入的速度还是可以接受的,实际速度一个实测的结果,跟你在用手机进行输入的速度是一样的,每秒30-40个字左右。这是靠我们对电容图像的智能处理和自然语言模型相结合获得的结果,在一定程度上克服了所谓的胖手指问题。

  用同样的原理,我们还可以提供比如现在手机上很现实的技术,叫防误触。手机的屏幕现在越来越大,有全面屏和曲面屏,同时也会带来一个问题,你握着它的时候会误处。

  同样我们在多特征的图像处理算法上的一些进展,使得我们在防误触上有比较大的进步。最近华为刚发布的mate10以及刚刚在美国发布的,相信在座也有人在用这个手机,如果你再用它的话,它上面每秒120次,一直在运行,是一个高性能的算法,就是我们实验室给它做出来的。

  这个做的结果是什么?是从其他原有产品,误触率在13%,这个体验很不好,我们给它的算法直接降到0.3%,这个体验还是非常好。

  自然交互中,我们还很期待一些很科幻的场景,比如我们在很多科幻片中会有这样的,像手势、姿态的交互和识别。实际上手势识别或者姿态的识别,在人机交互是一个很难的命题,像一些具体的任务上,比如空中打字,也就是我抬手,现在很多人有盲打的能力,实际上你一抬手就在敲你想打的字,你已经有了这个习惯。

  在20多年前,大家就已经设想,未来应该能够实现这样的技术。这个图虽然不是很清楚,右下角是苹果20多年前曾经设想的,在台式机上,不用这个键盘,抬手就可以打字。

  上面这个照片,是我在hollow lens即将发布的时候,在微软的时候带着它的,今天如果你带了hollow lens,就是VR、AR的技术使得我们眼前可以呈现三维的虚拟对象,那么你跟他进行交互的时候,我那个照片在打的时候,因为hollow lens只支持这样一个动作。那么它的软键盘在我面前,我只能一个一个的点,并且非常不准确。

  看一下我们做的实验结果,对人在空中打字行为所携带的信息量充分挖掘而进行建模。处理充分挖掘是说,我们的主动手、被动手,主动手指、被动手指,以及位置随意的变化、落点和语言模型的结合,可以使得我们实现几十年的理想,科幻的一个结果。实际上用这样的技术,我们还可以实现很多场景下跟踪、交互和自动理解用户的意图。

  交互意图的理解,我们建立了一套,通过数据采集、行为建模以及AI的一些分类算法,最终实现特定交互任务的一套研究方法和体系。我们把它用在手机上,目前希望能有更多的捕捉,因为手机上其实大家不知道,里面有非常多的传感器,并且进去更多所谓的building sensor,还会专门从体系结构上制造一个sensor heart的出现,我们可能能够捕捉更多外在用户的心态,包括卧姿、面部甚至眼神等能力,我们会提供一个手机交互全行为感知的能力,未来大家在使用手机上会有更好的体验。

  从这个角度,所谓智能技术的研究,也就是我们把一些模糊和用户行为习惯识别为具体、准确交互意图的研究,大有可为。即便从我们今天在手机这个问题上来看,我们也仅仅刚刚开始。大家不要以为我们今天的智能手机只是10年前才有,其实30年前就有,这是美国很普及的一本杂志叫《大众科学》,这是它1995年的封面文章,这个图上大家注意到,是1988年左右帕克研制的智能手机,实际上是iPhone原型系统。这cap model当时有各种计算、传感和应用,以及识别的能力。

  这个照片上我们可以看到,它跟我们人类的思想者紧密的结合在一起,共同互相了解和支持,更多的发现世界和获得能力的过程。随着计算超速手机渗入到我们生活更多方面,智能技术的进步,也将为人机共生的美好前景提供支撑的技术。

  很高兴有这样的机会跟大家分享,祝大家新年好!

参与讨论
后参与讨论

//评论区

推荐阅读

智能网联汽车国际标准法规协调专家组(HEAG)召开工作会议

近年来智能网联汽车快速发展,新技术不断涌现,与相关产业融合度持续提升,正在推动全球汽车产业发生深刻变革。为应对此种形势,欧、美、日等汽车工业发达国家和地区都加大了智能网联汽车的国际标准法规协调的参与力度,在联合国世界车辆法规论坛(UN/WP.29)和国际标准化组织(ISO)层面,智能网联汽车相关国际标准法规协调活动正快速推进。 为更有效地支撑上述组织的国际标准法规协调活动,2017年全国汽车标准

0215jiejie | 发布于:2022-12-01 0评论 0赞

苹果推出搭载M2芯片的新款iPad Pro 799美元起售

据苹果官网,苹果推出搭载M2芯片的新款iPadPro。 11英寸wifi版起售价为799美元,wifi+蜂窝网络版起售价为999美元;12.9英寸wifi版起售价为1099美元,wifi+蜂窝网络版起售价为1299美元。

0215jiejie | 发布于:2022-10-19 0评论 0赞

新能源汽车领衔 “中国智造”加速登陆欧洲市场

全球五大车展之一巴黎车展时隔四年再度启幕。在这场被视为“全球汽车行业风向标”的盛会上,国内外汽车品牌云集,长城汽车、比亚迪等再次领衔中国汽车出海。 长城汽车欧洲区域总裁孟祥军表示:“欧洲是长城汽车最重要的海外市场之一,巴黎车展是长城汽车向欧洲市场展示GWM品牌和产品的最佳机会。长城汽车正在研究汽车行业碳排放的整个生命周期,到2025年,将推出50多款新能源产品,全力支持可再生能源使用,为全球用户

0215jiejie | 发布于:2022-10-19 0评论 0赞

严监管时代来临,电子烟“通配”大战走向何方?

针对通配烟弹厂商的一系列诉讼的结果,将对生产通配烟弹的品牌未来在电子烟行业的发展产生深远影响。 10月1日,《电子烟强制性国家标准》正式实施,中国电子烟监管全面生效。而在电子烟行业进入规范化、法治化阶段前夕,一场围绕着通配烟弹的争论在行业里发酵。 “通配”是电子烟从业者约定俗成的概念。换弹式电子烟由烟杆和烟弹组成,“通配”烟弹指的是非品牌商生产、可与品牌烟杆匹配使用的烟弹。多位业内人士表示,被

0215jiejie | 发布于:2022-10-19 0评论 0赞

Bourns 全新大功率分流电阻器

采用金属感应引脚,专用于大电流应用中进行精确测量 全新分流电阻器专为电池管理系统、大电流工业控制和电动汽车充电站 提供高可靠性、高成本效益的解决方案 美国柏恩Bourns全球知名电子组件领导制造供货商,宣布新增12款CSM2F系列功率分流电阻器,扩展其产品组合。全新系列采用铆接通孔金属传感引脚,可满足大电流应用中对电压测试点精确定位日益增长的需求。最新型Bourns?CSM2F系列分流电阻器

0215jiejie | 发布于:2022-10-18 0评论 0赞

请尊重元宇宙“这个筐”

元宇宙是个筐,啥都往里装,但区别在于有的像聚宝盆,有的像垃圾桶。国庆假期刚结束,中青宝“90后”董事长李逸伦便亲自上阵,玩起了元宇宙婚礼。靠着老板首秀和代言,中青宝顺势推出“MetaLove元囍”App,正式进军元宇宙婚礼赛道。 就产品而言,如同其他元宇宙产品,李逸伦的元宇宙婚礼“新奇与吐槽齐飞”:有人说是有趣的尝试,有人则认为像QQ炫舞结婚系统。要知道,QQ炫舞是一款推出了十余年的老游戏。

0215jiejie | 发布于:2022-10-13 0评论 0赞

边缘计算:突围商业模式痛点

截至8月末,中国5G基站总数达210.2万个,中国5G发展已经进入下半场。随着5G加速融入千行百业,互动直播、vCDN、安防监控等场景率先大规模落地,车联网、云游戏、工业互联网、智慧园区、智慧物流等场景也快速走向成熟,这些更大流量、更低时延、更高性能的场景涌现,对边缘计算的刚性需求势必爆发。 GrandViewResearch预测,即使在新型冠状病毒肺炎疫情肆虐全球的背景下,边缘计算和5G网络市

0215jiejie | 发布于:2022-10-13 0评论 0赞

商务部回应美商务部升级半导体等领域对华出口管制并调整出口管制“未经验证清单”

商务部新闻发言人10日就美商务部升级半导体等领域对华出口管制并调整出口管制“未经验证清单”应询答记者问。 有记者问:近日,美国商务部在半导体制造和先进计算等领域对华升级出口管制措施。同时,在将9家中国实体移出“未经验证清单”过程中,又将31家中国实体列入,请问中方对此有何回应? 对此,商务部新闻发言人回应称,中方注意到相关情况。首先,通过中美双方前一阶段共同努力,9家中国实体zui终

0215jiejie | 发布于:2022-10-13 0评论 0赞

TCL华星官宣与奔驰合作:推出全球首款横贯A柱的车载显示屏

今年1月,奔驰带来了VISIONEQSS概念车,其中控台采用了一块完全无缝的47.5英寸曲面显示屏,横贯整个A柱,令人印象深刻。今天,TCL华星正式官宣与奔驰达成合作,并认领了VISIONEQSS上这块全球首款横贯整个A柱曲面的车载显示屏。 根据TCL介绍,这款显示屏采用了完全无缝的超薄一体化设计,将仪表盘、中控与副驾娱乐显示融为一体,并能够与3D实时导航系统相辅相成。 同时,这块显示屏还采用

0215jiejie | 发布于:2022-10-12 0评论 0赞

半导体板块暴跌 谁最受伤

国庆假期后首日开盘,上证综指时隔5个月再次失守3000点,与此同时,半导体板块也再度走低,其中,北方华创、雅克科技等个股跌停。10月11日早盘期间,半导体板块持续下挫,北方华创、雅克科技再度跌停。截至下午收盘,北方华创、雅克科技维持跌停状态,华海清科、拓荆科技-U、盛美上海、清溢光电、海光信息的跌幅则超10%。同日,半导体板块中的119只个股中超五成呈现下跌趋势。 在半导体板块遭遇下挫的同时,北

0215jiejie | 发布于:2022-10-12 0评论 0赞