实感交互:人工智能下的人机交互技术pdf下载pdf下载

实感交互:人工智能下的人机交互技术百度网盘pdf下载

作者:
简介:本篇主要提供实感交互:人工智能下的人机交互技术pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2018-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色



编辑推荐

适读人群 :从事人机交互领域工作的研究、设计、开发人员,相关专业师生,以及人工智能时代下对人机交互未来发展趋势有浓厚兴趣的人士

人工智能赋能人机交互技术,智能+交互,深入探讨解读人工智能下的人机交互技术。分析基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。


1、提供了有关触控技术的明确指导,包括优点、局限性和未来的趋势。

2、涵盖了基于语音交互的语音输入、处理和识别技术的原理讲解和应用案例解读。

3、提供了新兴的基于视觉感知技术和手势、身体、面部、眼球追踪交互的详解说明。

4、讨论了多模式自然用户交互方案,直观地将触摸、语音和视觉结合在一起,实现真实感互动。

5、审视实现真正3D沉浸式显示和交互的要求和技术现状。


内容简介

过往的科幻现已成真,在人工智能时代现在我们与计算机、手机和娱乐设备的互动正在经历革命性的变化,基于触摸、手势、语音和视觉的自然人机交互正在逐渐替代使用键盘、鼠标和游戏手柄等的交互。显示设备也从单纯的显示设备转变为提供更具吸引力和沉浸式体验的双向交互设备。本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。

本书适合从事人机交互领域工作的研究、设计、开发人员,相关专业师生,以及人工智能时代下对人机交互未来发展趋势有浓厚兴趣的人士阅读。


作者简介

Achintya K.Bhowmik博士曾是英特尔公司大商业部门——PC部分的负责人,现为英特尔公司感知运算部门技术总监,他负责领导研发基于自然人机交互技术和视觉计算技术的下一代解决方案。这些技术包括视觉感知、语音识别、生物传感、沉浸式显示、多模态用户界面与应用等。

Achintya K.Bhowmik博士出版和发表过多本著作与多篇论文,获得过27项授权专利,他是IEEE的高级成员,同时也在加利福尼亚大学圣克鲁兹分校教授移动传感和计算机视觉课程。


目录

原书序

原书前言

第1章 交互式显示的感知、理解与自然

人机界面1

 1.1 引言1

 1.2 人类感知和理解3

 1.3 人机界面技术7

  1.3.1 过往的输入装置7

  1.3.2 触控式交互技术9

  1.3.3 声控交互10

  1.3.4 视控交互12

  1.3.5 多模态交互15

 1.4 “真实”3D交互显示探索17

 1.5 结语19

 参考文献19

第2章 触觉感知22

 2.1 引言22

 2.2 触控技术简介23

  2.2.1 触摸屏24

  2.2.2 按大小和应用对触控技术进行分类25

  2.2.3 按材质和结构分类的触控技术27

  2.2.4 按检测物理量分类的触控技术27

  2.2.5 按感知能力分类的触控技术28

  2.2.6 触控技术的未来29

 2.3 触控技术的历史29

 2.4 电容式触控技术32

  2.4.1 投射电容式触控技术(编号1) 32

  2.4.2 表面电容式触控技术(编号2) 39

 2.5 电阻式触控技术43

  2.5.1 模拟电阻式触控技术(编号3) 43

  2.5.2 数字多点电阻式触控技术(编号4) 48

  2.5.3 模拟多点电阻式触控技术(编号5) 49

 2.6 声波触控技术51

  2.6.1 表面声波触控技术(编号6) 51

  2.6.2 声学脉冲识别触控技术(编号7) 53

  2.6.3 色散信号技术触控技术(编号8) 56

 2.7 光学触控技术57

  2.7.1 传统红外线触控技术(编号9) 57

  2.7.2 多点触控红外技术(编号10) 61

  2.7.3 摄像光学触控技术(编号11) 63

  2.7.4 玻璃光学触控技术(平面散射检测)(编号12) 68

  2.7.5 视觉光学触控技术(编号13) 69

 2.8 嵌入式触控技术72

  2.8.1 外嵌互电容式(编号14) 74

  2.8.2 混合互电容式(编号15) 74

  2.8.3 内嵌互电容式(编号16) 76

  2.8.4 内嵌式光感(编号17) 77

 2.9 其他触控技术79

  2.9.1 压力感测(编号18) 79

  2.9.2 组合触控技术81

 2.10 结语82

 2.11 附录82

 参考文献83

第3章 用户界面中的声控式交互技术88

 3.1 引言88

 3.2 语音识别91

  3.2.1 语言的本质91

  3.2.2 声学模型和前端模式92

  3.2.3 使语音对齐隐马尔科夫模型(HMM)的过程93

  3.2.4 语言模型93

  3.2.5 探索:以每秒1000个单词完成填字游戏95

  3.2.6 训练声学和语言模型96

  3.2.7 为特定说话人识别系统调整发声和语音模型96

  3.2.8 “标准”系统外的其他系统97

  3.2.9 性能98

 3.3 语音识别的深度神经网络98

 3.4 硬件优化100

  3.4.1 低电量唤醒运算101

  3.4.2 特定运算的硬件优化101

 3.5 稳健语音识别的信号强化技术102

  3.5.1 稳健语音识别102

  3.5.2 单通道噪声抑制102

  3.5.3 多通道噪声抑制104

  3.5.4 噪声消除104

  3.5.5 回音消除104

  3.5.6 波束形成105

 3.6 声音生物计量106

  3.6.1 引言106

  3.6.2 声音生物计量面临的挑战106

  3.6.3 声音生物计量的新研究领域107

 3.7 语音合成107

 3.8 自然语言理解110

  3.8.1 混合主导对话111

  3.8.2 预设和填值技术的局限113

 3.9 多轮对话管理116

 3.10 规划和推理119

  3.10.1 技术挑战119

  3.10.2 语义分析和语篇表达120

  3.10.3 语用学121

  3.10.4 对话管理协作122

  3.10.5 规划和再规划122

  3.10.6 知识呈现与推理123

  3.10.7 监控123

  3.10.8 推荐阅读文献124

 3.11 问题解答124

  3.11.1 问题分析125

  3.11.2 寻找相关信息125

  3.11.3 解答与依据126

  3.11.4 呈现答案126

 3.12 分布式语音交互架构126

  3.12.1 分布式用户界面127

  3.12.2 分布的语音及语言技术128

 3.13 结语129

 参考文献130

第4章 视觉传感与肢体动作交互技术136

 4.1 引言136

 4.2 图像技术:2D和3D 137

 4.3 姿势交互140

 4.4 结语146

 参考文献147

第5章 实时3D传感与结构光技术149

 5.1 引言149

 5.2 结构化图案汇编150

  5.2.1 2D伪随机汇编151

  5.2.2 二进制结构化汇编152

  5.2.3 多进制汇编153

  5.2.4 连续正弦相位汇编154

 5.3 结构光系统校准157

 5.4 数字条纹投射(DFP)技术下的3D传感示例160

 5.5 实时3D传感技术162

  5.5.1 数字光处理(DLP)技术的原理162

  5.5.2 实时3D数据采集164

  5.5.3 实时3D数据处理与可视化165

  5.5.4 实时3D传感实例166

 5.6 人机交互应用的实时3D传感166

  5.6.1 实时3D面部表情捕捉及其人机交互的意义167

  5.6.2 实时3D身体部分姿势捕捉及其人机交互的意义167

  5.6.3 人机交互意义的总结168

 5.7 最新发展169

  5.7.1 实时3D传感与自然2D彩色纹理捕捉169

  5.7.2 超高速3D传感171

 5.8 结语173

 参考文献173

第6章 实时立体3D成像技术178

 6.1 引言178

 6.2 背景179

 6.3 立体匹配算法的结构181

  6.3.1 匹配成本计算182

  6.3.2 匹配成本聚合183

 6.4 特征分类184

  6.4.1 深度估计密度184

  6.4.2 优化策略185

 6.5 实施平台的分类186

  6.5.1 仅用CPU的方法187

  6.5.2 GPU提速的方法187

  6.5.3 硬件执行(FPGA,ASIC) 188

 6.6 结语190

 参考文献190

第7章 飞行时间法3D成像技术194

 7.1 引言194

 7.2 飞行时间法3D传感194

 7.3 脉冲飞行时间法196

 7.4 持续飞行时间法196

 7.5 计算方法197

 7.6 精度199

 7.7 局限性与改进200

  7.7.1 时差测距的挑战200

  7.7.2 理论局限200

  7.7.3 距离混叠201

  7.7.4 多径与散射202

  7.7.5 功率分配与优化202

 7.8 飞行时间法摄像组件203

 7.9 标准值203

  7.9.1 光的功率范围203

  7.9.2 背景光205

 7.10 技术发展最新水平206

 7.11 结语207

 参考文献207

第8章 凝视跟踪208

 8.1 引言和研究动机208

 8.2 眼睛210

 8.3 眼动仪212

  8.3.1 眼动仪的种类212

  8.3.2 角膜反射法214

 8.4 反对和障碍216

  8.4.1 人为方面216

  8.4.2 室外应用217

  8.4.3 校准217

  8.4.4 精度217

  8.4.5 点石成金(MidasTouch)问题218

 8.5 凝视交互研究218

 8.6 凝视指向219

  8.6.1 解决点石成金问题219

  8.6.2 精度问题的对策220

  8.6.3 鼠标指向和凝视指向对比221

  8.6.4 鼠标和凝视协调222

  8.6.5 凝视指向反馈224

 8.7 凝视姿势224

  8.7.1 凝视姿势的概念224

  8.7.2 姿势检测算法225

  8.7.3 执行凝视姿势的人类能力226

  8.7.4 凝视姿势字母表226

  8.7.5 姿势从自然眼动中分离227

  8.7.6 凝视姿势的应用228

 8.8 作为情境的凝视229

  8.8.1 活动识别229

  8.8.2 阅读检测231

  8.8.3 注意力检测232

  8.8.4 应用凝视情境233

 8.9 展望233

 参考文献234

第9章 感知用户界面的多模态输入237

 9.1 引言237

 9.2 多模态交互类型237

 9.3 多模态界面238

  9.3.1 触控输入238

  9.3.2 3D姿势245

  9.3.3 眼动跟踪和凝视249

  9.3.4 面部表情250

  9.3.5 脑机接口251

 9.4 多模态集成策略252

  9.4.1 框架式集成253

  9.4.2 合并式集成254

  9.4.3 程序性集成254

  9.4.4 符号/统计集成254

 9.5 多模态交互的可用性问题255

 9.6 结语256

 参考文献257

第10章 生物计量学中的多模态交互:技术与可用性挑战262

 10.1 引言262

  10.1.1 身份确认动机262

  10.1.2 生物计量学263

  10.1.3 多模态生物计量学的应用特征263

  10.1.4 2D和3D人脸识别264

  10.1.5 多模态案例研究266

  10.1.6 适应于盲人对象267

  10.1.7 本章结构268

 10.2 对移动生物计量平台的应用剖析268

  10.2.1 面部分析268

  10.2.2 语音分析271

  10.2.3 模型适应272

  10.2.4 数据融合273

  10.2.5 移动平台实施274

  10.2.6 MoBio数据库和协议275

 10.3 案例研究:为视觉缺陷者进行可用性研究276

  10.3.1 头部姿势变化对性能的影响276

  10.3.2 用户交互模块:头部姿势质量评估278

  10.3.3 用户-交互模块:音频反馈机制280

  10.3.4 视觉缺陷者的可用性测试282

 10.4 讨论与结语284

 参考文献285

第11章 迈向“真实的”3D交互显示器287

 11.1 引言287

 11.2 生物视觉的起源289

 11.3 光场成像294

 11.4 迈向“真实的”3D视觉显示300

 11.5 与3D显示屏上的视觉内容交互308

 11.6 结语310

 参考文献311

附录 缩略语313


前言/序言

前言

什么是“人机交互显示”呢?我们将其定义为不仅能够在屏幕上显示可视信息,还能感知和理解人类行为、接收用户直接输入的显示器。能够“感觉” 到手指触摸的触摸屏已经十分普遍,尤其是那些装配在移动设备和一体化计算机上的。现在,新增的类人传感与理解识别技术正在推进新型交互式显示器及系统的开发,使其能够在所处的3D空间中“看”“听”且“领会”我们的行为。

我们运用多感官和多模态界面模式来理解周围的客观物理世界,并与人们在日常生活中交流。这些都是通过无缝拼接包括触摸、声音、姿势、面部表情和凝视在内的多种交互模式实现的。我们如果想通过人机交互来获取社交交互的丰富内涵,就必须为这些设备装上能够感知与领悟用户的输入与活动的技术。因此,增加多种自然用户界面能够使人类互动的体验更为真实。

我们与计算机交互的方式经历了最近几十年的变革,依靠鼠标和键盘作为输入工具的图形用户界面已取代传统的基于文本输入的命令式界面。而眼下,随着自然用户界面(通过触摸、姿势、语音等模式的人机交互)的兴起,我们正目睹着下一场技术革命的开始。实施人机界面模式的最终目标就是为用户呈现自然、直观、身临其境般的交互体验。虽然当前的技术局限使得设计师和工程师不得不有所妥协,致使部分目标仅能在完成某个特殊产品时实现,但是为了实现最终目标,我们在近几年来不断取得重大进展。

本书聚焦自然用户界面,对快速兴起的人机交互式显示领域内的技术、应用以及发展趋势进行了深度解读。第1章主要介绍人类感知和理解过程的基本要素,回顾了以触摸、声音和视觉感应推理为基础的自然界面技术,以及通过该技术实现的人机交互过程;随后各章深入每种输入与交互模态的细节,在实现多感官和多模态交互的目标过程中,对技术的基本原理及其在多种用户界面模式中的结合与应用展开细致的探讨;最后一章总结了基本要求和技术发展现状,展望了未来有望实现的“真实的”3D交互界面及其带来的真实的、沉浸式的交互体验。


Achintya K. Bhowmik于美国加利福尼亚


序言

人类对机器的交互式使用可以追溯到数千年以前。世界上第一台自动贩卖机可能是古希腊工程师Philo在公元前220年发明的。只需投入一枚硬币,它就会把称量好的肥皂传送到盥洗台上。这是一台带有擒纵机构的机械装置。这台颇为先进的机器无疑代表了当时最前沿的科技,但要说它对社会行为的发展产生了显著影响,这是值得商榷的。在往后的2200多年里,我们发现自己已经处于明显不同的境地。仅仅50年前,第一台电容触摸屏问世了;30年后这项技术发展成熟,已经广泛应用在笔记本电脑、销售点终端这样的高端设备以及掌上消费品市场;又一个10年过去了,如今的触控设备,至少是手持装置已经开始无处不在。

这有力地推动了本书的出版。本书由一组不同领域的高级技术专家联合撰写,涵盖了包括触摸、声音和视觉等主要交互形式。前两类互动形式将分两章分别讨论,视觉部分将在后五章阐释,主要关注已经问世或亟待问世的视觉科技特性。随后两章将介绍用来开发多模态交互显示的多种方法。本书结尾探讨如何呈现最为真实的3D立体图像。由于当前显示系统仅能保留高强度数据,而想要获得近似于人眼直接观察到的自然效果,就得通过保留已丢失的相位信息来实现了。

自此,读者会得出结论:本书全面回顾了当前新兴科技的发展。其实不尽然,因为我更想指出的是智能交互技术对社会带来的影响。虽然这些影响主要是积极的,但是也可能存在某些消极方面。这些都是公众关注的重要问题,因而值得辩论。积极的方面包括使用便捷;能够通过电脑或手机系统进行直观推理和预测;用简单的声音指令就能对复杂的结果进行讨论和管理;为身体不便的用户带来便利,并使其充分体验当前的各种产品,等等。然而消极的影响是,比起现在,通信系统会更广泛地侵入用户的生活。通话中的手机不仅早已被怀疑用来追踪定位,其未来系统还会更深入探测我们的行为模式。原则上,依靠计量生物数据来辨别身份的安全系统应当比目前的芯片和个人识别码技术更值得信赖,然而一旦前者的安全系统受损,可能泄露的安全数据将比后者要多得多。

未来人机交互体验的丰富程度,除非当前用户亲身使用,否则他们是难以想象的。过往的科幻现已成真。在技术创造的诸多可能性被供应商和用户采纳之前,有些问题必须讨论和解决。本书为此提供了多方面的素材和依据。对参与该主题的科学技术工作者和开发交互产品的参与者来说,这将是一本重要的书;对于有兴趣了解或需要了解交互技术会如何影响未来社会与人际行为的广大读者来说,本书也不容错过。


Anthony Lowe于英国Braishfield