02
1 月
平行世界
- By IanGoo
“元宇宙”的概念,最近开始悄然走进了公众视野。海外有“元宇宙第一股”Roblox、“将利用5年时间转型成为元宇宙公司”的Facebook[1],国内有阿里巴巴发起的天猫首届“元宇宙艺术展”大大地炒了一把“元宇宙”和NFT的概念。而就在我写这篇报告期间,Facebook更名为“Meta”,并且更换了新的Logo:

所以,“元宇宙”究竟是什么玩意儿?它会对我们的未来生活产生什么样的冲击?本文将从较低的入口开始,一步步深入元宇宙的众多细节。
Contents
又是一部赛博朋克小说
“元宇宙”的英文叫Metaverse。是词缀“Meta-”和“Universe”的缝合。在英文当中,Meta-这个前缀在英语当中一般解释为“Beyond”,即超越、更上一层的含义。亚里士多德就曾经创造过一个词,从希腊语翻译成英语叫“Metaphysics”,指的是超脱于物理学之上的学问——物理学是研究这个世界运行规律的学科,而Metaphysics则是研究物理规律背后的规律,明治时期日本学者井上哲次郎在翻译时借用了《易》中的一句话“形而上者谓之道,形而下者谓之器”,将“Metaphysics”翻译为“形而上学”。从这个角度就不难理解“Metaverse”是一个超脱于本位面物理宇宙的宇宙。
这个词首次出现于美国作家Neal Stephenson在1992年创作的赛博朋克小说Snow Crash(《雪崩》)[2]。我们曾经探讨过赛博朋克的源流和表征,曾经提到过“赛博空间”(Cyberspace)这个词(来自William Gibson创作的小说Burning Chrome),“元宇宙”其实也是一个赛博空间。在《雪崩》这本小说中,主角在现实世界当中只是一个非常落魄的快递员,但是在回到家后,只要连上Metaverse,他就会立即化身为一名超级英雄。在书中,Neal Stephenson将Metaverse描述为一种与现实世界平行、具备100%沉浸感、可以满足人们各种感官需求的虚拟电脑世界。
注意,在《雪崩》一书中,作者强调了“沉浸感”和“感官需求”这两个概念。这也是元宇宙与以往赛博朋克作品当中的的赛博世界的一个很大的区别。甚至在视觉效果理应比纯文字的小说要好很多的漫画《攻壳机动队》当中,也没有对“电子脑空间”做出一个定义性的、直接的、统一风格的描绘。

所以,当我们讨论“元宇宙”的时候,实际上和传统意义上的“赛博空间”还是有一些区别的——那就是沉浸感(Immersive)。这种感官意义上的沉浸感使得人们可以在赛博空间当中直接套用现实世界的规则来与其他用户的替身(Avatar)、以及赛博空间本身来交互。这使得元宇宙比不那么强调沉浸感的赛博空间显得更加用户友好,自然地,也就更有商业价值,这也是为什么Facebook这样的资本大鳄会纷纷将“元宇宙”这个概念抛向公众媒体。
但是作为研究者,我们显然不应该像某些媒体那样听风就是雨,这样显得Too young too simple,确实很naive。我们还是应该静下心来,剖析“元宇宙”概念的每一个细节、迈向元宇宙的技术道路,甚至还包括资本吹捧元宇宙概念这个行为本身。
我们身边的赛博空间
赛博空间(Cyberspace)这个词来自科幻小说。听起来它距离我们的生活很遥远。
其实并不是。
科幻小说里利用脑后插管或者干脆电子脑接入赛博空间固然很炫酷,但是,这种“接入”行为本身可以抽象为一个概念:
人脑通过某种界面,以某种媒介为载体,与互联网互相交换信息。
所以……
当你睡眼惺忪,躺在床上刷着微博或者抖音的时候,你已经接入赛博空间了。当然,跳楼狂魔·母猩猩·女王萝莉二象性·草薙素子少佐拥有秒杀Ryzen 9 5950X+RTX3090的顶级电子脑,是通过脑机接口界面直接和赛博空间进行人造神经电位层面上的高速数据交换;而手无缚鸡之力·废宅·快落水上瘾患者·我们则是通过眼睛、耳朵、声音、触摸屏、显示设备与赛博空间进行效率极低且很容易产生歧义曲解的低速、低效率数据交换。
所以,我们现在拥有了两个世界——一个是躺在床上的你所在的现实世界,另一个是方寸屏幕背后的那个虚拟世界。看起来,这是两个被隔开的世界。
是这样吗?
Paul Milgram、岸野文郎等人曾经在1995年提出过“现实-虚拟连续体”(Reality-Virtuality Continuum)的概念[3]。在这篇论文当中,研究者主要探讨的是AR技术,同时通过AR技术的特点提出了一个观点:现实和虚拟并非两个老死不相往来的独立世界,而是一个连续的概念。某种呈现技术可能会让对应的世界更靠近现实,另外一些会更靠近虚拟一端。比如下面就会提到,VR世界就比AR世界更接近虚拟一端。用户通过某种方式投射到数字世界当中,这种投射方式就是用户交互模式,而用户在数字世界当中的投影就是所谓的替身(Avatar)。
元宇宙的两个维度
当我们审视“接入赛博空间”这个动作的时候,实际上有这么几个要素:
- 我们通过何种界面接入、以什么作为信息交换的媒介?
- 接入后我们在这个空间里做什么?包括:
- 我们与这个空间本身是如何交互的?
- 我们与这个空间里的其他账号(如果有的话)是如何交互的?
- 我们会接入多久?
- 我们在这个空间当中会留下什么?这个空间会因为我们的活动而有所改变吗?
- 赛博空间与现实世界会如何交互?
元宇宙也是一种赛博空间,它本质上和微博、抖音没有区别,但是元宇宙之所以是元宇宙,它必然在上面这些要素当中有一些特殊之处。上面的这些问题,其实可以归结为两大类:第一类为技术问题,比如接口界面,从传统的平面图文,到多媒体,到3D互动,到多种扩展现实技术;第二类为生态问题,如用户的内容创造、赛博空间里的经济和交易、信息安全等。
如果我们纵观“虚拟世界”这个概念的历史,我们大致能看到“元宇宙”这个概念出现的铺垫:

“虚拟世界”是一个信息构成的人造物,在一篇题为Metaverse for social goods: A university campus prototype[4]的论文当中,提出了上面的虚拟世界发展史,并且将其划分为5个阶段:
- 第一阶段为文学作品阶段。
如《龙与地下城》、《神经漫游者》、《雪崩》这样的文学作品构筑了一个虚拟世界。当然,由于文学作品本身的单向传播特性,这个虚拟世界是由作者单方面建成,并且建成后就不会再变动了,读者也无法参与到这个虚拟世界当中去。 - 第二阶段为基于文本的多人在线游戏。
这一阶段最典型的案例就是MUD。MUD是“Multi-User Dungeon”(多用户地牢)的缩写[5]。可以理解为现代MMORPG[6]的文字版,当然这么类比有点类似于“爹像儿子”。事实上,在MMORPG的黎明时代,“MMORPG”这个名字还没被发明出来的时候,这类游戏的名字叫做“Graphical MUD”,图形化MUD。
在MUD当中,虽然看起来、理解上这都是一部非线性的小说,但是玩家可以参与其中了,他们可以控制故事线的走向、与其他玩家互动,甚至左右故事的结局。 - 第三阶段为图形化的多人在线游戏。
它的前序技术是80年代末期开始出现在个人计算领域的3D计算机图形。虽然此时所有的3D图形都必须由CPU演算生成,效率极其低下而且画质非常感人,但是这是一步巨大的突破。随后90年代前期到中期,便是“3D加速卡”这个概念大放异彩的时候。
这一阶段是沉浸感的强化期。 - 第四阶段是可穿戴设备和移动设备上的多人在线游戏。
现实和虚拟世界之间的第四面墙开始被打破。从第一阶段到第三阶段,提升的就是人的感官下的虚拟世界的真实性。而这一阶段开始,虚拟世界和现实世界开始合二为一。

在未来,进一步的高度沉浸感已经在路上了——2016年,Elon Musk悄悄成立了NeuraLink,这家公司就致力于实现大脑与计算机的神经级直连,直接在大脑和电脑之间传输电信号。简单点说,它的终极目标就是《攻壳机动队》或者《黑客帝国》中的脑后插管。
注意,我在这里一直用的是“虚拟世界”,而并没有一步到位叫它“元宇宙”。事实上,元宇宙是一类虚拟世界,但是并非所有的虚拟世界都属于元宇宙的范畴。如Gravity Sketch里的那个空间,在里面画完图,然后呢?
就……完了啊?
所以,这和在一张白纸上画画有啥区别?真正的元宇宙,应当是现实社会的某种复刻,除了高沉浸感,它还应当具备社会层面上的意义——它必须要多人联机甚至全人类联机,所有人的活动都会对这个虚拟世界施加影响,所有人的活动也都有可能会对其他人施加影响,并且这些影响在正常情况下不会随着用户的离线而消失。
所以除了沉浸感之外,另外一个重要的维度是干预性。
当我们面对一个虚拟世界的时候,我们会在这个虚拟世界里留下什么?
按照用户与这个虚拟世界的交互关系,可以分成如下几个层级:
- 第一层级为读写(RW,Read/Write)。这是最最基础的交互,用户可以从虚拟世界读取某种信息,也可以向虚拟世界发送某种信息。如果连RW都不满足的话,那就是单向传媒——即传统的文学、电视、电影、广播等形式。
- 第二层级为个性化(P,Personalization)。用户可以对虚拟世界进行一定的设定,如:我喜欢看什么东西、我喜欢什么样的风格等等。
- 第三层级为内容创造(CC,Content Creation)。用户可以在虚拟世界当中创造某些东西,如可以在虚拟世界中撰写文章、发布视频、绘画、摄影等等。
- 第四层级为社群(S,Socialization)。虚拟世界可以容纳不止一个用户,还可以让多个用户同时接入,并且互相之间产生社交效应。
- 第五层级为二元性(D,Duality)。虚拟世界不仅仅是虚拟世界,虚拟世界里的物品和现实世界具备对应关系,并且两者之间还会互相影响。
- 第六层级是永久性(P,Perpetual),即用户的一切动作产生的结果都会永久保留在虚拟世界当中。
需要说明,这六个层级是渐进式的。上一个层级必然会以下一个层级为基础,如,CC层级的应用,必定也具备RW和P属性,实际上等同于RW+P+CC。在这样的基础上,如果我们以媒介为横轴,干预性为纵轴,我们可以得出这样一张图:

我们可以从里面挑出几个例子来说明:
超级马里奥,堪称最经典的游戏之一。但是它只具备最基础的交互性,玩家操控小人在游戏世界里一路跑跑跳跳吃蘑菇,但是玩家无法修改这个世界。
Netflix,媒介毫无疑问是视频。但是用户可以在Netflix当中选择自己偏好的视频类目。
超级马里奥制造的一个最大的特色就是玩家自制关卡,这就赋予了它“用户创作”的要素。
而随着动森的发布,社交属性已经成了游戏的另一个新爆点。
再往上,二元性的应用,现在还几乎是空白。到了永久性这一层面,代表作品只有两个:Internet Archive[7]以及现实生活中的各种石刻。
我们可以看到,在从图像到AR、D和P层级上还存在大片的空白。这些就是未来元宇宙的潜在入口。如果从这两个维度上来考虑,元宇宙将具备这样的特征:
- 多人在线、可以进行内容创造的社群化数字空间。
- 具备二元性,即:跨现实世界与数字世界。它可能是对现实的Copy(即Digital Twin,数字孪生[8]),也有可能是完全从虚拟出发的纯粹的数字化造物(即Digital Native,数字本体)。
- 可以实现用户与用户、用户与虚拟世界之间的交互功能。
- 这种交互是富媒体的、具有沉浸感的,在这方面,XR[9]技术有天生的优势。
以上,我们讨论的基本上都是技术层面的事情,但是事实上,我们还需要考虑“软”的。
任我行说:“有人的地方就有江湖。”作为一个多人在线的公共空间,它从某种程度上是现实社会的一个镜像。那么,它势必需要借鉴一些现实社会的规矩——或者说,叫“生态”。
所以,我们还可以用另外两个维度来考量元宇宙——技术和生态。统计一下,我们可以列出这两个维度总计14个领域作为支撑元宇宙的技术和生态的支柱,分别是:

14根支柱
下面,我们将一个一个拆解,说明14根支柱的行业现状以及对元宇宙的意义。
扩展现实(XR)
VR、AR、MR这些,关心前沿技术的都或多或少有所耳闻。这些技术现在都可以被归为一个统一的框架内——扩展现实(Extended Reality,扩展现实)。
我们前面曾经提到过现实-虚拟连续体(Reality-Virtuality Continuum)的概念。它可以理解为对“现实”向虚拟的一种扩展,但是随着技术的不同,各种XR技术在现实-虚拟连续体当中的位置也是不同的。目前可以确定的是VR和AR的大致关系:

VR可以理解为创造一个虚拟的数字世界,然后通过VR头盔让用户沉浸其中。它在这个连续体当中就更加接近虚拟世界的一端。而AR技术更多的是在现实世界上新叠加一个“图层”,在这个图层上显示虚拟世界的一些内容作为对现实世界的一种“增强”,因此,在这个光谱上就更靠近现实世界一端。至于MR……很遗憾,目前学界和工业界都还没有产生一种共识性的MR的定义,因此暂时先不放进去。
VR世界完全是虚拟的,而且,网络可以将多个用户的Avatar投射到同一个VR世界当中,从而实现协作。比较典型的一个案例是6为艺术家使用Google的VR绘画软件Tilt Brush创作了一副绘画作品[10]:

AR则不太一样。首先,AR世界的……Hmm……背景图层,就是现实世界。但是,在现实世界之上叠加了一层虚拟世界。而这两个图层如何精准对齐、无缝衔接,难度颇为不低。比如通过AR进行导航,结果导航的箭头每个路口都离题万里,或者路线直指路边的饭馆大门,这就完全没法用了。这也是目前AR的一个技术难点。
另一个技术难点是交互,包含两个层面的意义:第一是如何将数字世界呈现出来,第二是如何让用户操作这个数字世界里的对象。而考虑到AR“以现实世界为背景”的特点,我们不可能像VR那样,设计一个让用户在小范围内移动就可以的应用场景,因此移动性的交互就成为必需。而在目前的技术条件下,最常见的移动数码设备就是手机,所以,目前多数AR应用都是通过手机屏幕和摄像头来实现现实世界和虚拟世界的叠加呈现与输入操作的。

在当前的技术条件下,这是商业化的最优解。但是显然不是理想中的解决方案。理想是什么样的这得请教小萝卜头唐尼。


非常巧,钢铁侠就展示了两种实现高度沉浸感的未来AR的可能。第一种是头戴式设备;第二种是全息投影设备。
当然,头戴式设备已经在商业上出现了,曾经的Google Glasses就属于此类。由于Google没有钢铁侠有钱,Google Glasses和钢铁侠的头盔在显示效果上完全无法相提并论。至于全息投影,目前看起来仍然只是停留在科幻小说的领域。但由于它的理念过于超前,因此,有一种观念认为,它是超越AR的东西,也就是MR的范畴。
MR,如前所述,目前不论是学界还是工业界都没有一个共识性的定义。大致可以总结出6种定义:
- 在现实-虚拟连续体当中介于AR和MR之间的扩展现实技术。这是一种比较传统的定义,简单点说,就是比AR更虚一些,比VR又更实一些。
- 就是AR的同义词。
- 是一种协作化的扩展现实技术。
- 是AR与VR互相结合的产物。
- 是将虚拟环境与现实对齐的技术。
- 一种强化版的AR技术。
所以,关于“MR”究竟是什么,各种论文和商业产品都有自己不同的阐释,是非曲直,难以论说。这里,我们暂时以“传统定义”为准绳,即:一种介于AR和MR之间的XR技术,其最大的特点是允许用户在现实世界当中直接操作虚拟实体。这也是传统定义下MR和AR的区别:AR更多地是在现实世界上叠加了一个图层,用户无法和这个图层里的虚拟对象交互,这个图层更多的实现的是一个信息提示的功能;而MR则不然,这层虚拟“图层”第一更加丰富多彩,第二拥有完全的交互性。
既然考虑到了交互性的问题,如何让用户在现实层面上与虚拟对象进行交互,这就成了问题的核心。比如,在虚拟装配的时候,AR可以告诉你:这里是一个螺丝孔,并且会用虚拟的方式告诉你这里需要拧进去一颗什么规格的螺丝;而在MR当中,你可以抄起一把螺丝刀,将一枚虚拟的螺丝钉拧进这个现实的螺丝孔当中。
目前我们的XR技术仍然以头戴式设备为主要的实现手段。但是即便是头戴式设备,仍然存在一个普及率的问题,另外,目前的头戴式设备的重量和尺寸都还不足以支撑人们去哪儿都戴着它们的程度。在这种情况下,外部显示设备其实还有用武之地。这样的技术包括大型显示器、微型投影机、和全息技术。
大型显示器在我们的生活当中已经并不少见,其中一些已经具备了相当的“沉浸感”,比较典型的是最近开始流行的“户外裸眼3D大屏”,比较早投放且知名度很高的是韩国d’strict的海浪:

微型投影机则是更多地用于在一些小地方。如在特定的表面投射特定的虚拟内容。如果投影机足够小的话,它可以应用于很多狭小的地方。最科幻的还是全息成像。目前已有的一种很常见的“全息显示”是基于反射的,可以形成浮空的虚像:

但是,还有一类基于激光成像原理的,它可以形成完全浮空的图像,但是目前的技术条件下,只能是单色,而且尺寸受到了很大的限制,不过真正强的是它可以对皮肤形成触觉反馈[11]。

以上是XR技术的发展近况。
用户交互技术
在用户交互技术这一节,我们首先讨论用户如何向虚拟世界输入。
传统的平面介质的输入工作,大家已经习以为常——键盘、鼠标、触屏或者触笔。
但是很显然,键盘和鼠标的移动性是非常差的,只能正襟危坐在一台设备前使用。触屏相对来说灵活一些,但是交互也必须限制在手机屏幕的方寸之间。这些都限制了虚拟世界的沉浸感。目前的前沿是“徒手交互”(Freehand Interaction)。注意,触屏并不在其中。所谓“徒手”,指的是人体部位不用借助任何特定的设备来完成交互操作,触屏依然需要依靠屏幕。到了手势识别,这就属于徒手交互的范畴了。
徒手交互的前序技术是机器视觉(Computer Vision,CV)。这是由于手势等交互方式是一种模糊的、非标准的输入。因此,需要借助CV来“理解”用户的操作意图。但是,CV也有固有的缺陷:需要消耗相当的计算资源。因此,除了CV之外,还有一些辅助手段,如:光学探测、IMU[12]、热电红外、电磁探测、电容探测等,这些替代手段可以一定程度上辅助检测用户的活动,降低CV对计算资源的需求压力。

上图所示的ActiTouch就是一项研究成果。通过一个连接到用户身体的电极,这个设备将用户的整个身体变成了一个巨大的触摸表面,通过接触不同的部位可以实现对应的输入,并且在AR/VR界面中予以显示(左半边就是VR环境中看到的图像)。
另一个比较典型的解决方案就是直接将传感器穿在身上,这就是数字织物技术。数字织物具备一定的交互功能。

ARCord就是一种使用数字织物的AR输入技术,它本体是一个使用数字织物编织的绳索,通过在绳索上移动滑块实现在AR环境中的用户输入。数字织物已经成为科技巨头的投资热点,Google就已经开始了针对数字织物的投资,试图将数字织物的成本压低到可以大规模生产的合理范围内。
上文所示的这些用户输入都还依赖于用户的动作,而更进一步的就从用户的“动作”输入进化到使用用户的“思考”作为输入了。这就依赖于脑电(EEG)和肌电(EMG)检测技术。现有的技术已经可以在很小的设备上实现EEG和EMG检测,并且技术已经下放到可以在科技馆内供儿童玩耍的程度——而且并不太远,吉林省科技馆二楼就有。
说完了用户的输入,再说输出。头戴式设备是目前XR技术的主力这个应该没有什么疑问。因为它具备良好的移动性、很好的沉浸性——但是这里沉浸性最好的VR头盔受到的限制是最大的,因为它完全隔绝了用户与现实世界之间的联系,因此在脱离特定环境的条件下使用是危险的——试想你正在VR环境里追击一个尸鬼,而就在脑门前不到10厘米的地方就是一个锃光瓦亮的玻璃门……再结合现实-虚拟连续体的“现实世界与虚拟世界融为一体”的精神,我们本处主要讨论AR和MR头戴式设备。这类头戴式设备的主要功能就是实现物理世界与虚拟世界的合二为一。
目前,AR/MR头戴式设备并非完美,最主要的问题是它们非常有限的视场(Field of View,FoV或者FOV)。目前市售的AR/MR头戴式显示设备通常拥有小于60°的FOV,典型的表现是它只能在用户眼前投射一块屏幕。如Google Glass的显示效果相当于用户视线方向240cm处的一块25’显示器。微软的HoloLens第一代视场也只有30×17°,到第二代增长到了43×29°,但是HoloLens的体积和重量也都不是省油的灯,巨大的边框也遮挡了相当一部分现实视野,试想一下正好一扇锃光瓦亮的玻璃门就被挡住了……

目前比较Fancy的前沿技术是隐形眼镜形态的显示器。

当然,隐形眼镜屏幕目前只能实现低像素的单色显示,但是很显然,就“与现实世界的无缝融合”而言,它比当前的头戴式显示设备强得多。
除了FOV的问题,在AR/MR的设计层面上,也需要注意以下的要素:
- 颜色与光效
适度提升信息层的可见性,有助于在各种光照条件下获取有用信息,但是同时又不至于遮挡现实世界层。 - 内容的可读性和易读性
这牵扯到字体和字号的选择、信息的呈现方式。 - 视觉疲劳与信息负载
涉及到呈现方式与需要呈现哪些信息的选择。
其实,在这个话题上,游戏的HUD设计一直都是很好的参考对象。如何让游戏玩家在可以专注于主画面的前提下,依然可以获取足够的辅助信息,那就很见设计师的功力了。当然,与现实世界相比,游戏HUD需要呈现更多的内容,因为有很多东西在游戏环境当中是无法呈现的,比如在屏幕显示边缘外接近的其他赛车等(因此很多赛车游戏会设置接近告警,用一个红色箭头指出有相撞危险的其他赛车)。而另一个很难呈现的就是一些反馈信息——轮胎什么时候开始打滑了、撞墙时的过载等等,前者还可以通过力反馈方向盘稍加弥补,但是后者在家用条件下是很难实现的。
这就是AR/MR的另一个难点——反馈机制。
在现实世界中,反馈很简单——脑袋撞在锃光瓦亮的玻璃门上之后脑瓜肯定嗡嗡的,这都不用主动设计,属于被动技能。但是,在虚拟世界里呢?开着时速超过300的赛车错过刹车点直接螺旋飞天,屏幕里惊心动魄,玩家坐在电脑前不动如山,这就造成了沉浸感的割裂。所以,触感反馈就显得很重要了。目前的VR手柄当中的线性震动马达就可以起到一定的震动反馈的效果。一个很简单的例子是Steam的VR Demo当中,有一个用手柄接住落下的气球的动作,当气球接触到手柄的瞬间,手柄的震动可以比较像地模拟出一个弹性物体与手柄接触时产生的手感。
除了触觉反馈,人的其他感官也可以与虚拟世界连接。包括嗅觉、味觉等,更加丰富的多模态交互无疑会让用户对虚拟世界的观感有巨大的提升作用。对于视障人士而言,这也为他们感受虚拟世界打开了大门。

具备反馈功能的虚拟世界会带来另一个巨大的挑战——网络。不论是带宽还是延迟,目前的4G网络很难应付AR/MR以及随之而来的多模态感官体验提出的通讯需求。而已经登场的下一代5G移动通信系统虽然具备大带宽、低延迟的特性,但是面对巨量的多模态数据,它能不能应付也不好说。我们在后面会讨论的边缘计算可能是一种解决方案。
为了应对这些挑战,学界已经有了一些新的想法。如“触觉互联网”(Tactile Internet)的构想[13],这一构想试图重构目前的骨干网,以降低延迟带来的负面影响。当然,延迟并不一定是由于互联网引起的,设备本身的延迟也不可忽视。在手机上有一个概念叫“玻璃到玻璃”的延迟,指的是从摄像头拍摄到图像到图像显示在屏幕上,一般得有20ms左右,而触觉反馈的延迟要求低到了1ms。这将是未来的一个挑战,同时也是机遇。

机器人与物联网
根据统计,2021年,全球将有138亿物联网设备上线,而到2025年,这一数据将达到309亿[15],很多观察人士认为,将物联网设备与XR技术相融合,可能会形成多模态交互系统的突破口,尤其是对于非专业用户而言。这一部分,我们将探讨XR+IoT[16]的影响,以及可能的问题。
我们身边使用的物联网设备正在飞速增长,很多家庭都已经使用了智能家居设备来让生活更轻松一些。但是,大量的小型物联网设备并没有一个有形的“UI”来实现交互操作。

目前,这些IoT设备大多都依赖于手机等第三方操作设备来实现操作,但是,这并不够“直观”,但是通过XR技术,可以在小型设备旁边“投射”出一个带有操作界面的“图层”,更进一步,由于XR是通向虚拟世界的一扇小门,用户大可以进入XR环境,直接在其中操作设备。目前,通过VR来体验一把飞行的感觉早已不是新鲜事。

目前XR+IoT的另一个热点领域,就是汽车。在可以预见的未来,汽车将成为非常重要的“移动中的第三空间”。目前,在汽车领域运用XR技术主要有三个方面:
- 宣传层面上,通过XR宣传自动驾驶的工作原理,提高了自动驾驶技术在人群中的认知度。
- 通过XR HMI提升行车安全性与体验。如将一些不可见的物体——包括鬼探头的行人。在这方面已经有一些商业化的尝试,比较典型的就是WayRay和Nissan I2V(Invisible to Visible)。Nissan I2V通过对周围环境的全面测量,实时生成周围环境与自身的数字孪生,并通过XR技术呈现给驾驶者。
- 通过XR结合虚拟世界与现实世界,提供更有趣的产品体验。如Roborace[17]就发布了自己的元宇宙产品Roborace Metaverse,在这个产品当中,用户可以通过AR显示器看到虚拟的障碍物,并在其中进行竞速。Hyundai则在Roblox上推出了现代移动大冒险(Hyundai Mobility Adventure,HMA)[18],在其中用户可以定制自己的替身,并且通过替身来互相交流。


人工智能
人工智能(AI)指的是让计算机能够从经验中学习并执行各种任务的理论和技术。AI的概念最早提出于1956年的达特矛斯会议,在最近,AI的概念已经开始逐渐进入商业应用阶段,包括自然语言处理(NLP)、计算机视觉(CV)、算法推荐等。人工智能有很多理论上的实现方法,如硅脑、超越图灵机[19]等,但是在目前的条件下,最常用的方法是机器学习(Machine Learning)。
传统的机器学习有三种范式:有监督学习、无监督学习和强化学习,区别在于是否需要进行学习材料的人工标注。在生物神经网络的启发下,深度学习(Deep Learning)也开始流行。
不难预见,元宇宙应用将会产生海量的数据,如何处理这些数据将成为一个难题,而AI在这方面正好有发挥的空间。具体来说,有三个:
AI + 自动数字孪生
如果我们考量数字化体系当中虚拟世界与现实世界的互操作性的话,可以将数字化体系分成三个阶段:
- 数字模型,数字模型是现实世界的数字化复制,但是复制后,虚拟世界与现实世界就此分道扬镳,现实世界里的变动不会影响虚拟世界,虚拟世界里的变化也不会再现实世界当中得到体现。
- 数字镜像,复制后,虚拟世界会与现实世界保持一致,现实世界里的变化会立即映射到虚拟世界当中,但是虚拟世界的变化不会反过来影响到现实世界。
- 数字孪生,虚拟世界与现实世界保持互操作,现实世界里的变化会反应在虚拟世界当中,虚拟世界的变化也会在现实世界里实现。
用通俗的话说,有些类似于为一个文件夹做备份,数字模型相当于复制了一份,数字镜像相当于用了专业的备份软件做的单向备份,而数字孪生相当于双向同步。
为了保持这种同步状态,系统需要处理大量的数据用于支撑对象的分类、识别、预测,依靠人工来处理这些数据是根本不可能的,使用深度学习实现自动化数据处理就是一种很好的方案。

目前,深度学习+数字孪生的应用已经开始在智慧医疗方面出现。在一个智慧医疗系统的原型设计[20]当中,系统会建立一个病患的数字孪生,医生可以通过深度学习来进行智能诊断和健康预测,在远程手术当中,医生可以直接在数字孪生上进行手术,病患位置的机械臂将还原医生的动作,实现从数字孪生当中虚拟世界到现实世界的干预。在城市管理当中,随着物联网传感器的广泛使用和建筑信息模型(Building Information Model,BIM)精度的提高,我们可以通过深度学习来建立更高质量的智慧城市的数字孪生。如在一篇论文[21]当中,就提出了为城市建立数字孪生,用于监测和预测建筑的能耗。这样的系统也可以用来帮助一些细节问题的决策,如太阳能电池板如何布置。
另一个重点领域是工业系统。工业系统的复杂性非常高,包括控制策略、工作流程、系统参数控制等多个部分,全局优化非常困难。另外,数据是异构的,有结构化的、有半结构化的,也有非结构化的,这使得传统的数据处理在其中难有用武之地,深度学习就显得至关重要了。一个案例是为石化行业设计的数字孪生框架以优化生产控制[22]。
AI + NPC
对于游戏玩家而言,NPC这个概念应该非常熟悉。NPC(Non-Player Character,非玩家角色)指的是不受玩家控制的角色。在大量的游戏当中,为了让玩家控制的角色能够与更多的对象进行交互,除了在MMO游戏当中的玩家角色与玩家角色之间的交互之外,还需要考虑添加一些NPC以增加游戏内容的丰富性。在单机游戏当中,NPC更是能够与玩家角色互相交互的唯一角色。

在很多单机游戏当中,很多NPC都是按照固定的脚本来执行动作的。很典型的是Serious Sam当中的敌人的行为,极其简单:任何时候,沿当前最短路径冲向玩家角色,有远程攻击能力的NPC会一边跑一边biubiubiu,没有远程攻击能力的NPC就是一路小跑接近后发动近身攻击。当然,这个案例比较极端,因为Serious Sam就是一个追求爽快的无脑欢乐向打枪游戏,但是不可否认的是,很多游戏玩家都能体会到,同一个游戏,玩单机时相对简单,玩联机多人对战的时候立即会感受到难度的巨大提升,其一个重要原因就是NPC的行动策略远远没有高水平人类玩家灵活、不可预测。
为了提升NPC的智能程度,提升玩家的游戏体验,将AI应用于NPC的设计也就很合理了。目前,在NPC的响应模型当中,使用最广泛的模型是FSM(Finite State Machine,有限状态机)。FSM使用四个参数(State状态、Condition条件、Action行为,Next State下一个状态)来进行响应决策,并且在操作完成后将当前状态更改为下一个状态。FSM实现起来相对简单,但是其可扩展性非常差,当游戏变得复杂后,FSM的复杂度也呈现指数增长。因此,目前已有一些研究通过深度学习来控制NPC的行为[23]。
不过需要注意的是,NPC的目的不是为了让玩家在单击游戏当中体验联机游戏时被高手骑脸的那种挫败感,而是让游戏更好玩,所以AI NPC的训练方向并不一定完全是提升NPC在游戏中的技能(如在FPS游戏当中使NPC的枪法更准),而是让NPC的行为更“拟人”(如在FPS游戏当中更像人类玩家一样拥有自己的决策方法,苟好放黑枪还是无脑Rush B)。另外,很讽刺的一件事是,AI在游戏领域第一个大放异彩的应用竟然是外挂。

AI + 用户替身
替身(Avatar)是虚拟世界中人类用户的代表。如在HALO正传作品单机部分当中,玩家的Avatar就是John-117。但是,在大多数游戏当中,受制于现实条件,多数替身只能在特定的选项当中选择,这导致了多数玩家的替身非常相似。

但是,在今天的技术条件下,我们已经可以通过AI来生成各种各样的人像,这背后的技术称为生成对抗网络(Generative Adversarial Network,GAN)。GAN可以利用学习到的数据生成伪图像,其中包括人脸。在网上不难找到这样的案例,如This Person Does Not Exist,或者二次元版本的This Waifu Does Not Exist[24],以及喵星版本的This Cat Does Not Exist。在游戏当中,一些作品已经利用了GAN生成的2D角色(如Euro Truck Simulator),一些在游戏当中直接生成2D角色,更有一些直接生成了3D角色。目前已经实用化的GAN当中,最流行的是2018年NVIDIA推出的NVIDIA StyleGAN。
除了通过GAN生成用户替身的形象,还可以将用户的游戏数据用来做其他玩家的对手。如Forza Motorsport的Drivatars和Real Racing 3的Time Shifted Multiplayer(TSM)系统,会通过收集、学习玩家的驾驶数据,包括车辆位置、走线、车速、油门、刹车灯数据,形成一个驾驶模型,这个驾驶模型可以用于与其他玩家对抗。与早期竞速游戏当中的Ghost Car不同的是,Ghost Car通常只是一个影像,不会与玩家的车辆发生碰撞等互动,玩家撞过去的时候只会穿过去。但是Drivatars和TSM都实现了类似实时游戏的效果,互相之间有碰撞、可以做攻防动作。
区块链
关于区块链,我们以往曾经有过深入的讨论[25]。此处就不再说明区块链的技术原理,而是直接开始说区块链在元宇宙中的应用:
分布式数据存储
在元宇宙当中,所有的东西都是数据。面对如此巨量的数据,存储方式就成了一个很大的难题。
传统的数据存储使用的是集中式的数据中心。但是,当数据规模突破天际的时候,数据中心的规模也会变得异常庞大、成本高昂。元宇宙正有这样的风险。
因此,分布式数据存储就成为一个很好的解决方案。区块链的本质是一个建立在不可控的低信任度计算机网络上的高置信度分布式数据存储系统。这也算是区块链回归初心了。
数据共享
由于基于区块链的分布式数据存储系统拥有很高的可扩展性和灵活性,用户在区块链中可以贡献自己的存储资源(相应的,可以用一定的奖励机制鼓励用户这样做),相应的,用户的数据不一定存储于自己的设备当中,而是加密后存储在存储网络当中其他用户的设备当中。因此,持有密钥的数据所有者可以较为方便地访问他们自己的数据,但是,这样的架构对数据共享是不友好的,因为区块链存储不支持传统的共享模型(从一个中心化服务器中获得URL,将URL共享给他人即可实现数据的共享),并且,共享后的数据会生成额外的密钥,需要一套新的密钥管理机制来管理加密数据的共享。
因此,学界已有一些研究开始探讨基于区块链的数据存储机制。如共享数据的密钥管理机制[26]、通过引入智能合约和Access Control来跟踪用户的全部数据访问行为[27][28]等。
数据互操作
隐私与安全性对元宇宙的数据管理至关重要。但是,元宇宙的另一个特征是极高的互操作性,数据互访是不可避免的行为,这两者之间就形成了矛盾。但是区块链就构成了一个很好的高安全性数据平台,如银行和保险公司可以共享各自的客户数据,并且可以从技术层面上杜绝非法访问行为[29]。
机器视觉
在前面介绍XR的时候,我们就已经提到了CV技术。可见CV在XR领域的重要性。
本地化映射
在元宇宙中,人类用户将与他们的数字替身连接在一起,考虑到数字孪生与人类用户之间需要保持极高的互操作性,虚拟世界需要通过观察人类用户的动作来同时操作数字替身。
在现实生活中,我们使用眼睛来获取空间信息,并且在大脑中重构。这也是CV的基本原理——计算机通过摄像头获得2D图像,然后再通过AI还原数字现场。目前比较常用的技术是同步定位建图(Simultaneous Localization and Mapping,SLAM)技术。通过SLAM还原现场依赖三个关键步骤:1、特征提取;2、将2D帧映射为3D点云;3、闭环检测。
特征提取阶段也有多种不同的算法,比较节约资源的是特征点匹配,但是精度受限,在自动驾驶领域,由于计算资源比较宽裕(搭载GPU),一般使用精度更好的卷积神经网络(CNN)。
SLAM基于的是平面的图像,一般摄像头即可以提供,但是面对更复杂的环境理解计算的时候,普通摄像头不一定能够提供充分的信息,这时全息摄像头就能够发挥更大的优势。和人的双眼视觉类似,全息摄像头可以探测对象的深度信息。目前已有的技术包括Apple ARKit[30]、Intel RealSense[31]等。
让计算机“看懂”画面之后,便是CV在XR领域的重要应用——动作捕捉和映射。

目前,MoCap技术在影视行业已经非常成熟,在民用方面,一些VTuber已经开始。但是传统的MoCap技术需要在身体和面部的关键点贴上标记以便更精确地捕捉,但是面向更广泛的场景不太可能。强化CV恐怕是更直接的方法。
理解场景
更进一步的应用是让AI系统理解系统当中究竟是什么物体,以及物体之间是如何交互的。
通过大量的训练,可以帮助卷积神经网络了解图面中带有特定特征的物体究竟“是什么”,在汽车领域,目前已有的两个应用:第一是自动驾驶的CV对象识别;第二是用于DMS。


目前,地平线AI已经投放了带有驾驶员感知的产品,除了检测疲劳情况,还可以检测乘员的情绪,如果驾驶舱足够智能的话,就可以将座舱调整为与乘员情绪相匹配的氛围。
眼球追踪
眼球追踪是CV在元宇宙应用中一个很直观的领域。其中一个很明显的理由是可以降低渲染的成本。它可以探测用户正在关注什么位置的内容,并仅仅在该区域进行高精度渲染,其余区域则采用低质量渲染。目前Unreal Engine 5已经具备了自适应渲染质量调节的功能[32],但是它的基准是当前屏幕的中心位置。
另一个应用是增强固定显示设备的可视角度。TrackIR[33]是一种眼球追踪设备,可以通过检查用户正在观察的视角,对游戏内的摄像机角度进行实时调整。
目前TrackIR作为VR系统的平价替代方案在飞行模拟和赛车模拟游戏当中已经具备了相当的知名度。
语义理解
在现实世界当中,人类通过四个基本问题来了解周围的世界:我扮演什么角色?我周围的东西是什么?我离被引用的物体有多远?这个物体正在做什么?在CV当中,场景的语义理解也就是在回答这些问题[34]。结合CV的语义理解包含以下内容:
- 语义分割与目标检测
探明场景当中有哪些物体。 - 位置信息
通过SLAM+深度检测,探明这些物体在空间中的相对位置。 - 行动识别
在CV当中,理解一个对象的行动被称为动作识别。计算机通过摄像头、红外激光的方式探测人的动作,并将其加以理解,随即在系统当中对动作做出响应。
图像恢复
通过性能开销较小的AI后处理可以将较低画质的图像转化为高画质图像。这在性能开销本身就很大的VR领域有较为重要的意义。
目前,NVIDIA DLSS[35]是一种已经商用化的基于深度学习的图像增强技术。与传统的超采样抗锯齿技术相比,DLSS的性能开销要小得多。

除了在3D应用中的画质增强,2D图像同样可以通过深度学习的方法进行增强,例如:二战时期英国伦敦的市容街景和民众生活珍贵历史影像 (1943-1945年期间拍摄)_哔哩哔哩_bilibili。
云计算与边缘计算
为了实现现实世界与虚拟世界的连接我们需要一个设备。在当前的技术条件下,随身携带的手机就是最常见的设备,因为它便于携带、便于移动,但是,元宇宙需要大量的密集计算,对于手机这样的移动设备来说这显然大大超纲了。因此,云计算就成了一个很显而易见的选项。但是云计算又带来了另一个层面上的问题——延迟。
用户从动作输入,到从感官接收到“这一输入已经得到了操作”的反馈,这中间的时间段就是MTP(Motion-to-photon)延迟。一般来说,人能接受的极限是20ms。但是在现实操作当中,为了减轻用户端设备的计算负载,常常将相当的计算负载Offload到云端,但是这就带来了额外的MTP。因此,如何平衡设备端与云端的负载与传输数据率就需要非常仔细地考量。边缘计算就是对云计算的一个很好的补充。
边缘计算的雏形之一就是现在仍然在广泛使用的互联网技术基石——CDN(内容分发网络,Content Delivery Network),举一个例子,一个视频网站,最简单的架构就是将视频资源放在一个服务器上,然后观看者通过各自的终端访问这个服务器,读取其中的视频文件进行播放。但是第一,这会给服务器带来巨量的负载,很有可能让服务器卡死;第二,服务器有可能距离用户非常遥远,用户每执行一次操作,都会导致缓冲很长一段时间才能得到响应。CDN就是为了解决这一痛点而诞生的。在CDN当中,视频资源与视频渲染所需的算力被从一台服务器分散到了若干台服务器组成的网络当中,用户会优先连接距离自己最近、延迟最短的服务器,这样从宏观上就分散了客户群对服务器端的负载。
对于汽车这样一个对延迟极为敏感的应用场景来说,目前很多厂商已经开始了云计算的布局。如Jaguar在部署了GPU群集的边缘云上利用GPU硬件加速来推动车载AR缩短MTP的工作[36],EAVVE提出了一种AR系统,利用边缘服务器弥补车载算力的不足[37]。在算力大有替代马力的趋势的今天,这样的“云算力氮气加速装置”显然具备相当的现实意义。
但是对于手机、汽车这样无法通过网线与高速WiFi与有线网络基础设施直接连接的移动设备来说,还有一个问题——目前的蜂窝移动数据的“最后一公里”问题。目前4G LTE仍然存在延迟瓶颈,5G则有望将延迟降低到1ms,随着5G和未来6G的发展,多接入边缘计算(MEC,Mobile Edge Computing)将成为一个重要的解决方案。这也是众多元宇宙概念当中反复提到的概念。如Niantic,也就是Ingress、Pokemon GO等著名AR游戏的开发商,就计划打造一款“行星级AR”,它就与全球多个电信运营商联盟,包括德国电信、EE Globe、Orange、SK、Softbank、TELUS、Verizon、Telstra等。
另一方面,依托数据中心和计算中心的传统云计算并不会随着边缘计算的兴起而没落。在存储空间上,运行于数据中心上的云计算中心仍然有不可比拟的优势。尽管分布式存储具备近乎于无穷无尽的增长潜力,但是从经济性上来说,数据中心反而具备更好的经济性,因其不需要进行复杂的设备间资源协调,木桶的短板也更高、更可控。但是,为了协调云计算与边缘计算之间的交互,需要有一个高效率的调度器平衡云计算与边缘计算之间的任务。云计算负责对延迟不敏感但需要大规模的数据存取的任务,而边缘计算则负责延迟敏感、数据吞吐量不大、更靠近用户体验端的任务。
网络基础设施
按照设计,元宇宙很显然高度依赖于网络访问。因此没有疑问,先进移动互联网技术将是元宇宙的基石之一。元宇宙对网络基础设施的要求有:
高吞吐量、低延迟
继多媒体之后,元宇宙也需要在网络当中传输大量高分辨率的内容,而元宇宙交互的即时性又为网络基础设施提出了更高的MTP延迟的要求。而5G巨量的数据吞吐能力(可高达10Gbps)和极低的延迟(可以低至1ms)为元宇宙提供了可能性。
但是目前的5G存在一个问题——5G分成NSA组网和SA组网两种,目前的NSA组网依然借用了4G的核心网,因此5G NSA组网对延迟的改善几乎没有,真正堪用的低延迟大流量5G网络还得等到SA组网的来临才行。
用户中心网络
元宇宙是一个以用户为中心的应用程序。因此,元宇宙的每一个组成部分都应该把人类用户放在其核心位置。这也促成了一个新指标的出现——QoE(Quality of Experience,体验质量)。
熟悉网工的应该知道QoS这个概念,QoS的含义是Quality of Service,服务质量。很显然,QoS的设计指标是面向业务的。而QoE则是面向用户体验的。它将是一种可测量的、用于衡量用户对应用程序或服务感知质量的方法——为啥要加个“将”?因为目前QoE还没有形成标准。
但是如果QoE形成了标准并且和目前的QoS一样,上至主干网机房下至家庭路由器都实现了集成,那么用户体验势必会更上一层楼。
为了实现QoE的深度集成,一个比较古老的思路被再次拎到了前台——网络感知应用。
网络感知应用的历史比较悠久,在1990年代,网络感知应用在互联网基础设施非常薄弱、数据率以kbps计量的时代,被用于测量网络的承载能力,并在网络层对数据报的优先级进行动态调整。随着网络带宽的爆发,“优化”这种事情似乎变得不那么重要了。但是如果想要建立一套完整的QoE体系并且真正服务于用户体验的提升,那么网络感知应用就有用武之地了。
随着5G的兴起,很多以用户为中心的应用程序也会从本地迁移到云上,如云游戏(如Google Stadia[38])乃至云计算机(Microsoft Windows 365[39]),这一切都要求网络能够以极高的速度稳定传输数据,网络感知应用可以将整个网络的完整结构告知给设备,这样在某个边缘计算节点出现瓶颈的时候可以立即以较小的性能损失切换到临近节点,从而最大化QoE。
用户替身
“Avatar”一词来自印度教,指的是印度教中的神的化身,祂们一般会以人类或者动物的形象出现在现实世界。
在网络环境当中,Avatar则广泛指代用户在虚拟世界中的投射,如各种聊天室、论坛、博客、社交网络中的用户头像,而在AberMUD、Second Life这样的游戏当中,Avatar还可以被用于指代用户本人。近年来,游戏玩家或者虚拟社交网络的参与者可以修改或者编辑他们的替身的外观,拥有几乎无限的选择,典型的如《堡垒之夜》。

一些VR在线社交游戏,如VRChat,允许通过自拍获得用户的真实外表并加入游戏当中。

严肃地说,Avatar指的是虚拟空间中用户的数字化代表。目前,各种文本、Logo、图像、动画或者3D是较为普遍的Avatar的形式,但是社交机器人的概念则提供了跨越虚拟与现实世界的可能。如机器人可以意识到用户的情绪,并在对话中与用户进行适当的互动,或者机器人在现实世界中充当远程工作的服务提供者。
需要注意的是,当虚拟形象的颗粒度已经足够细到可以反映现实中的用户的时候,隐私保护又会成为一个问题。另外,角色与被带入虚拟世界的歧视问题也有可能存在。但是从用户的角度来思考,用户未必会使用与现实生活中同步率较高的Avatar来参与到虚拟世界当中。一个很无厘头的研究表明,《魔兽世界》当中23%的大老爷们在游戏当中显示为女性角色[40],Kotaku专栏作者Nathan Garyson也在专栏里吐槽“我明明是个直男但是却在游戏里扮演个女人而且还不止我一个有这习惯”[41]。用户也许会有意识地将自己在虚拟世界与现实世界中的身份做一个区分,这取决于系统的设计以及用户所在的文化氛围。
内容创作
在虚拟环境中,创作工具使用户能够以直观和富有创造性的方式创建数字对象。前面曾经提到过艺术家用TiltBrush合作创作星战主题插画的事情,这是很典型的VR条件下的应用。如果将视野扩展到整个XR,那么还有更多的案例。



可以预见的是,元宇宙将成为内容创作的一个助力器。由于它打通了数字与现实的边界,用户的想法可以很方便地通过各种CV技术、XR技术转变成数字作品。一个很典型的案例是3D模型的建立。XR技术让3D建模变得更加易于进行,将严肃的“三维创作”的门槛降低到了小孩玩泥巴的程度(数字雕刻)。创作门槛的降低也意味着创造者文化的兴起。在现实生活当中,互联网引发的UGC热潮已经让UGC拥有了自己的独特价值[44]。
虚拟经济
有一个非常特立独行的游戏——EVE(《星战前夜》)[45]。

在开发EVE的时候,CPC并没有着力去像Egosoft那样创造一个非常复杂的动态经济系统的算法,而是建造了一个虚拟的宇宙和各种规则。但是EVE的经济系统非常真实——比X4更加真实。主要是因为EVE是一个MMO游戏,X4依靠算法来模拟经济的动态,而EVE完全靠海量的玩家行为在虚拟世界里重新构建了一套真实的经济系统。所有在现实生活中可能出现的经济现象,在这个游戏当中一样会出现。经济现象的风暴中心无疑就是货币政策。在现实世界当中,发币权控制在政府手中,政府可以通过货币来做很多的事情——给经济踩一脚油门、给经济来一脚刹车、直接把油箱里的油装自己兜里……也正是由于这种对政府的不信任,加密货币出现了。在EVE当中,货币的发行同样是分散式的,并且是通过玩家的创造活动(采矿、加工)来缓慢生成。但是,这种比较缓慢的货币增长政策存在一个问题——政府拥有灵活的发币权,当社会生产总量开始增长的时候,可以通过增大发币量来进一步刺激经济的上扬,而如果货币政策无法跟上交易量的时候,就会出现恶性的经济现象——通货紧缩。和通货膨胀不同,适度的通货膨胀是会对经济起到刺激作用,过度的通货膨胀会造成破坏,而通货紧缩,一定是会抑制经济的。所以,在虚拟社区当中,货币政策如何制定就会成为元宇宙经济的重要议题之一。
为了构建元宇宙的经济体系,势必需要指定一种游戏内使用的“货币”,而这种货币又毫无疑问需要像用户一样,具备某种现实世界中的对应代表——也就是现实中的加密货币或者法币。但是,假若新货币与现有货币之间的“汇率”是由“官方”标记的话,这无异于在重演现实生活中的布雷顿森林体系——而众所周知,布雷顿森林体系最后的结局是崩溃。并且,由于在现实中逐利的驱动使然,大量的投机者会将元宇宙中的虚拟货币作为套利的跳板,这最终会导致劣币驱逐良币。因此,元宇宙中必然会存在某种“监管机构”。然而,如果元宇宙以商业产品的形态出现,那么,开发商或者运营商——即企业主体就会在这个元宇宙中扮演一个“政府”的角色。而在元宇宙中说不定也会有对这个“政府”的不信任人士开启加密货币运动,罗圈循环了属于是。
不过,如前所述,在元宇宙当中,开发商扮演了一个类似于“政府”的角色,但是这个“政府”的社会责任感要低得多。所以,有两个方法可以建设和谐的元宇宙社会:其一、现实中的政府积极介入,通过元宇宙服务监管机构,特别是经济监管机构约束创造元宇宙的企业的行为;比如,企业要在元宇宙中发币,一定要在现实世界中准备好对应金额的准备金,或者企业在元宇宙中发币需要接受现实世界中央行的监管和指导等等;其二,如同Epic Games创始人Tim Sweeney所呼吁的一样,建立一个开源的元宇宙。这样,一家企业创造的元宇宙不是这一家企业说了算扮演上帝,而是其他企业也可以接入其中,构成竞争关系,如同曾经和现在的WWW一样。
和现在的WWW一样,将元宇宙变成一个贸易平台的载体的想法也很自然。这就是元宇宙商业的概念。在现实世界当中,已经有了一些具备交易功能的游戏或者游戏分发平台。如《怪物猎人》和《精灵宝可梦》都允许玩家在游戏当中进行交易。Steam也有围绕“集换式卡牌”的交易系统。

而随着区块链的流行,一个新的概念开始出现,如果说加密货币是黄金在虚拟世界的对等物的话,那么NFT就是艺术品在虚拟世界的对等物。
NFT:潜在的元宇宙交易核心
NFT是不可替代代币(Non-Fungible Tokens)的缩写。与NFT对应的就是可替代代币。传统的代币,如比特币,是可以互换的、价值等同的。你的冷钱包里的0.001BTC和我的冷钱包里的0.001BTC价值完全相等,尽管他们的代码内容不一样,但是完全可以互换,我们俩的冷钱包互相换一下谁都不亏。但是NFT不具备这种特性,不同的Token完全不具备可互换性。这一切得从一个区块链游戏叫做CryptoKitties开始。在这个游戏当中,玩家可以使用ETH或者BTC购买一只小猫,小猫还可以跑到别家,和别的小猫生下小猫2.0,由于每一只小猫都不太一样,因此对应的,每只小猫背后的Token也就具备了不可替代性,这样一来,每只猫的价格也就天差地别。普通的猫并不贵(不到0.1ETH),但是一些猫的价格简直突破天际。

上面这只猫叫Founder Cat,一度以300ETH的价格(折合11万美元)位列“最昂贵的加密猫”。
当然需要注意,上面这张图片一分钱不值,右键另存为并不能给你带来任何价值。NFT是需要算法来验证的,虚拟物品的所有权受到区块链的保护,这就类似我们在网上找一张Mona Lisa的照片并不用花钱,但是原件还是好好地摆在卢浮宫里一样,只不过区别在于Founder Cat的“原件”也是虚拟的。
从集换式卡牌到NFT,我们可以看到在互联网上的交易已经愈加向Digital Native开始倾斜。一开始,互联网只是人们交易现实生活中的物品的平台,但是,随着“商品”概念的延展,一些起源于数字的东西已经开始在“共识”的加持下具备了价值和交易价值。而NFT由于在区块链的保护下可以提供某个虚拟物品的归属权的认证,因此NFT就成了元宇宙商务的潜在核心之一。
社会接受度
隐私威胁
2021年的一个趋势关键词就是“玻璃化社会”。即每个人、每家企业愈加变得透明。当你在音乐App中听歌的时候,大数据就在后台默默地关注着你的一切。当你突然开始听一些甜蜜的歌的时候,或许会发现App里的广告开始变成了玫瑰、香水、项链和婚纱摄影。
这是一个既成的事实。尽管上段位的Geek都有一套非常谨小慎微的手段来隐藏自己的活动痕迹,但是这套技术操作过于复杂,一般用户难以掌握(VPN?洋葱网络?反追踪脚本?Cookie屏蔽?乃至私云?如果你都能看懂,那就说明上道了)。要改善隐私环境,还是需要从上层加以推进。一个很典型的例子就是上面提到的Cookie。本来Cookie是一系列用于记录用户操作的数据,但是很快就被以Google为首的广告商盯上了——完全可以利用Cookie来记录用户的偏好,然后精准投放定制化广告。但是直到GDPR法案生效,Cookie的滥用才被禁止。
不过讽刺的是,隐私悖论却直直插进了人性的薄弱之处——懒。能躺着等信息喂到自己嘴里,干嘛要起身自己扒饭?事实上,大多数用户并不在意自己的隐私被谁、被怎么利用了。李彦宏曾经说中国的用户更开放、更愿意用隐私换取便利[46],当然由于百度本身的各种问题,他说完这话被网友和包括央视在内的一众媒体给喷惨了。其实现实情况是哪儿的用户都这样——人的懒是放之四海皆准的。
所以,在便利和隐私保护之间取得一个完美的平衡之前,任何“元宇宙”都是缺角的。
用户多元性
这是一个很政治正确的观点:在试图面向“所有人”的服务当中,应当尽可能考虑到所有的利益相关者,提供充分的包容和保障。
公平性
元宇宙将会包含一系列虚拟世界,而每个虚拟世界都有自己的规则来规范、管理用户的行为和活动。除了硬性的规则,每个社区都还有自己的一套“软”的规则,或者说叫“社区文化”。如豆瓣的“文青”标签、知乎的“知识”标签,也有可能以某种固有印象的Meme出现,如HALO的“Tea Bagging”、Battlefield的“跳飞机后用RPG轰掉对方飞机再爬回自己的飞机”。

但是这种“社区文化”会不自觉地形成一种排外特性。使得某个社区会倾向于特定类别的用户,导致其他用户在特定社区内遭到孤立。而内容推送算法则会导致这种社区文化固化的加剧。
目前很难说这种“固化”的文化究竟是好还是不好,但是一定会导致社区趋向于封闭而非开放。
用户上瘾
过度使用虚拟世界可能会造成一定的上瘾问题,在很糟糕的情况下,用户可能会将虚拟世界作为逃避现实世界的避风港,并且在现实中,这种逃避型的沉迷可能会导致心理问题和精神障碍。
网络霸凌
这是一个非常现实的问题,元宇宙如果和现在的互联网一样无法控制网络霸凌或者网络暴力的存在的话,势必无法长期运营。但是区别在于元宇宙的数据流量更大,并且,基于动作、模糊的语音等进行的网络霸凌将比文本更加难以精确识别,这将是元宇宙普及的另一个潜在的障碍。
其他社会因素
“数字代差”的概念现在已经出现了。如Gen Z更喜欢Instagram、Snapchat和Tik Tok(抖音),但是Facebook还保留着大量的Gen X和Gen Y的用户。目前尚没有面向所有世代的用户提供服务的社交网络出现。
元宇宙势必需要海量的计算资源作为支撑,这也是以大量的资源作为代价的。一个美好的数字虚拟世界和绿色的现实世界之间存在潜在的冲突。崇尚环保的用户或许会对元宇宙产生较大的反感情绪。
除此之外,还有元宇宙内容是否合理,是否存在恐怖、虚拟犯罪、诱导犯罪等内容同样会影响到元宇宙能否获得较高的社会支持度。
隐私与安全
元宇宙是基于海量的数据输入的,很多应当属于个人隐私的内容都有可能被泄漏到互联网上。
除了对服务商的担忧,一些社工层面上的问题也渐渐浮出水面。由于在元宇宙中用户可以拥有较高的选择自己的Avatar的自由度,那么就存在一种可能性,即社工黑客将自己伪装成某个物体然后在元宇宙里听墙脚。

在传感器方面,更有可能存在一些现实层面上的隐私泄露的危险。为了能更好地无缝接入元宇宙,大量的传感器被用于测量用户的动作、语言、表情等数据,这些原始数据可以透露出的信息是非常庞大的。如果没能进行合适的保护,这将会造成非常严重的隐私危机。
理想中的元宇宙形态
如果将这些要素放在一个理想中的元宇宙背景下,它应当呈现为一个什么样的形态?
- XR技术
理想中的XR技术可以将虚拟世界与现实世界完全集成起来,做到随时随地都可以很完美地呈现虚拟内容。 - 用户交互
以身体动作为中心的用户交互是必需,而更进一步的终极解决方案将有可能是脑机接口(BCI),直接将人的大脑接入虚拟世界当中。 - AI
AI将在很大一部分情况下取代人在元宇宙中的操作,实现元宇宙管理的自动化,并辅助用户的一些操作。同时AI的能耗需要进一步降低,目前耗费大量能源的深度学习还有很大的提升空间。 - 区块链
作为一种共识机制,它可以作为元宇宙的信任基础。但是它的速度、效率、可扩展性都还需要改进。 - CV
CV在理解对象的复杂度、处理的速度上仍然需要改进,要能做到和现实中的对象的响应速度相当仍然比较困难。 - 边缘计算与云计算
最后一公里延迟仍然是一个大问题。全5G骨干网可能会有所提升。 - 网络基础设施
低延迟、高吞吐量仍然是对网络的永恒追求。同时高QoE意味着对网络质量的衡量标准将会变得不一样。 - Avatar
一个完整的Avatar将是用户的全权代表,可以存储用户的个性、行为逻辑等,更远景的期望则是能够携带用户的现实记忆,当然这也会带来更古怪的伦理问题:在网络上我儿子还是我儿子吗? - 内容创作
全民创作,而不仅仅限于职业设计师。 - 虚拟经济
一个稳定的、可增长的虚拟经济体系。现实中的加密货币具备一定的参考价值,但是同样也存在通货紧缩的风险。 - 社会接受度
人们对元宇宙的社会接受度比较高,同时存在特定的打击网络犯罪的体制。 - 安全与隐私
个人的数字资产的安全与现实信息得到充分保护。同时元宇宙的运营者也不可对其滥用。 - 信任与问责
“个人数据”的概念得到扩展,并纳入到监管体系当中。
我们目前已经拥有了走向元宇宙的技术基础,但是这些技术都还很“基础”,距离能够支撑理想中的元宇宙还有非常漫长的距离要走。在技术得以完善之后,我们还需要在“软”的层面上讨论元宇宙的生态如何运行,还需要审视元宇宙依赖的立法、管理与审查机制以保障用户的合法权益,因此不难得出这个结论:元宇宙或许会到来,但那一定是未来的事情。
因此,目前资本对“元宇宙”的热捧,很难让人相信这不是资本运作的宣传机器。而宣传机器的后面就是割韭菜的镰刀了。尤其是目前的元宇宙在信任方面普遍依赖于区块链,“元宇宙经济”更是很大程度上围绕NFT来展开,但是不论是区块链、加密货币还是NFT,目前仍然未能取得全社会层面上的共识,因此并不具备普世价值——切记,一切“信用价值”都是以“共识”为基础的。还是那句老话:当我不能用我养的加密小猫到楼下小卖店换阔落之前,NFT不具备普世价值。所以,如果有投资元宇宙的想法的话,请三思。
汽车设计与元宇宙
新技术的运用:在元宇宙中创作
如前所述,目前已经有一些汽车设计工具推出了VR版本,如Autodesk Alias和VRED,一些新的XR创作工具也可以用于汽车设计,如Gravity Sketch。
但是,元宇宙一个非常重要的特征还有待发掘——协作。而随着nVidia Omniverse的发布,这一问题也正在得到解决。Omniverse可以简单地理解为3D版的Google Docs,当然,Omniverse的主要功能不是内容创作,而是协同。
更多的信息可以参考丽台科技的Q&A:关于NVIDIA Omniverse,你是否有很多问题? – 知乎 (zhihu.com)。
新的任务:为元宇宙创作
Second Life已经展示了在虚拟世界中的内容创作是有利可图的。而在汽车领域,为虚拟世界的内容创作的典范早已有了——Vision Gran Turismo。

Vision Gran Turismo是GT赛车的开发商Polyphony Digital联合全球各大汽车制造商专门设计的一系列概念车。
由于Vision GT项目完全不必顾忌现实世界中铁面无私的物理学规律,因此不少Vision GT概念车的性能表现堪称逆天。最典型的是Dodge的项目SRT Tomahawk。

除了和赛车游戏的深度结合,还有一些有趣的“虚拟”项目。在遥远的PlayStation 3时代,Audi就曾经与SONY合作。那时PS有一个用户社区——PlayStation Home,Audi就光速进驻PlayStation Home,在里面开了一家展厅。

随后Audi在PS Home当中还进一步推出了一些内容,除了一个视频发布频道外,还发布了一个游戏Vertical Runner,游戏当中玩家可以驾驶e-tron Concept挑战速度极限,优秀玩家将可以在Audi的展厅顶层获得自己的专属空间。
当然,随着PS3时代早已过去,PS Home在2015年停止运营了。但是Audi的这种打法相较于赛车游戏,很显然更注重“社区”的概念。而这也是元宇宙的一个重要属性。
新的产品热点:与元宇宙的融合
汽车是一个现实中的物品,它与虚拟世界的更好融合将会激发出很多有趣的用户体验的突破。
绝大多数赛车游戏都会为玩家提供巨量的信息,一方面是游戏性的要求,另一方面是弥补信息缺失。在正常的赛事当中,车手需要与团队保持TR沟通,随时掌握自己在什么位置、前面多远有谁、后面多远谁正在追击等信息,车手自己的感官也在随时敏锐地掌握赛车极为细微的动态变化:轮胎的温度与磨损状况、赛车还有多久到抓地极限等等。这些信息在单机环境的赛车游戏当中都是没有的。于是,游戏的设计者通过丰富的UI元素传达这些信息。并且,由于虚拟世界的可控性更高,还有一些比较有趣的、在现实世界中难以呈现的UI元素也会出现在游戏当中。

上图是ACC的游戏UI,可以看到,其中提供了常规仪表板的功能之外,还有接近警告、排名、比赛节奏、时间统计等等诸多功能,而且和很多重视真实性的游戏一样,在ACC当中可以开启赛车线,这一辅助可以帮助驾驶者走在最速路线上,甚至可以提示刹车点和出弯后何时可以全油门加速。另一个有趣的应用叫“Ghost Car”,在一些Time Attack赛事当中,它代表了一个虚拟的竞争对手。
在现实生活中,这样的“辅助”无异于开挂。但是在Track Day的时候,这样的体验就比较有趣了。在赛车游戏当中,这套UI被称为“HUD”。碰巧,目前汽车UI的设计当中,通过AR HUD将虚拟内容与现实结合,这正是元宇宙的基础之一。而且,现实世界里已经有一些场上开始在XR体验上发力了。比如Porsche。

而在日常驾驶当中,XR HUD同样也可以使用。Wayray曾经展示过“游戏化的驾驶体验”:
后记:元宇宙还是星辰大海?
最近有一个传言很有意思:刘慈欣[47]表示扎克伯格的元宇宙会引导人类走向灭亡。大刘有没有说过这句话存疑,但是他确实有一个非常鲜明的观点:虚拟世界和星辰大海很大程度上是互相对立的。很有意思的是,大刘并非唯一一个持这种观点的人。
X Universe的开发商Egosoft的创作团队也很认真地考虑过这个问题,他们曾经思考过一个文明的N种暴死的方式,其中一个就是在Ⅱ型文明向Ⅲ型文明[48]过渡的过程中,如果一个文明过早掌握了文明虚拟化的技术,并将整个社会都迁移到了一个虚拟的环境中生活,那么在这个完全由自己创造、自己就是上帝和主宰的环境中,很容易“此间乐,不思蜀”,和虚拟乐土相比,黑暗、冰冷、一切都不在自己掌控的现实宇宙显然缺乏足够的吸引力。但是无论如何,这个虚拟环境必须依托一台在现实生活中的计算设备才能运行,但是哪怕这台计算设备是极其强大的俄罗斯套娃脑[49],这台计算机很有可能会随着母星的红巨星化或者新星/超新星爆发而被彻底摧毁,这样的后果当然就是文明的灭绝。
知名度更高的设想则是Matrix。被机器奴役的人类通过脑后插管接入了“矩阵”,尽管电影里多数觉醒者都有为了人类的未来对抗机器的崇高理想,但是对于更多的沉睡者来说,Cypher向机器投降时说的话可能更能代表他们的想法:
我知道这牛排不是真的。我切开这块牛排,放进嘴里,矩阵告诉我的大脑它美味而且多汁。所以什么是真实?
当真正完全体的元宇宙建立起来之后,一个很轻松就可以全方位享受在现实生活中难以企及的享受的世界唾手可得之后,还有多少人会留恋现实生活呢?
甚至对于整个社会来说,脑后插管的社会也是更优解。现实世界的享受需要整个社会付出更多的生产成本,想要吃牛排,就真的得养一头牛。但是如果用另一种方法:一个人接入虚拟世界,现实世界只需要用很低的能量维持大脑的基本运转就可以,其余的器官大可以萎缩、退化甚至直接摘除,想要任何享受,输入对应的电信号就可以。甚至我们还可以用更黑暗、更性恶论的理由来解释这种未来的合理性:终极奶头乐理论。当生产的自动化达到了相当的高度,维持全社会所需的物资生产只需要相当少量的劳力,而马克思所设想的共产主义社会——“阶级消失”、“全体社会成员具有高度思想觉悟和道德品质”这两条并未实现,那么社会就会走向截然不同的反面——大量无法从事生产的无产者将会成为社会的不稳定因素。一个名叫“元宇宙”的美丽新世界就会成为这些多余人口的归宿。
这样的未来或许过于寒冷。当然我做出这样的评判仅仅是立足于21世纪初的价值观,或许一个世纪后,肉身就会变得像民国初年的大辫子一样,就是守旧落后的象征呢?
但是,运行这样的终极元宇宙的服务器的维护始终还是得在现实世界中进行,机械飞升终究无法斩断和现实世界的联系,这个宇宙终究还是唯物的。既然在我们刚刚摸到元宇宙门槛前的一粒微尘时,就已经有人意识到了这个新世界的两面性,或许真到了登堂入室迈入元宇宙的那一天,我们能像X Universe里建造星门网络的古圣先贤那样依然保持对现实世界的警醒和干预能力吧。

Reference
- Facebook’s metaverse fantasy | Financial Times (ft.com)[↩]
- 豆瓣:《雪崩》。[↩]
- Paul Milgram,岸野文郎,竹村治雄,内海彰:Augmented Reality: A Class of displays on the Reality-Virtualilty Continuum。[↩]
- Metaverse for social goods: A university campus prototype | arxiv.org[↩]
- 之所以叫多用户地牢,是因为前文提到的《龙与地下城》(Dungeons & Dragons),该作的桌游被认为是现代RPG游戏的始祖。因此,此后的RPG游戏多将特定任务进行的封闭性的场景称为“Dungeon”,其中有些是字面意义上的Dungeon,有些根本就不是,但是在游戏设计上一般都称为“Dungeon”。[↩]
- Massive Multiplayer Online Role-Playing Game,大型多人在线角色扮演游戏。[↩]
- Internet Archive是由开放内容联盟(Open Content Alliance)主导的一项计划,旨在通过收集各个网站在特定时间的页面,构成一个类似于旧报纸收藏的内容集合。[↩]
- 觉得眼熟就对了,在MBSE概述一文当中我们讨论过数字孪生。[↩]
- Extended Reality,扩展显示技术。[↩]
- Six artists collaborate to do a VR painting of Star Wars with Tilt Brush | Digital Bodies[↩]
- Fairy lights in femtoseconds | ACM SIGGRAPH 2015 Emerging Technologies[↩]
- Inertial Measurement Unit,惯性测量单元。最常见的IMU就是手机、平板电脑里的“陀螺仪”或者“重力感应”。[↩]
- 5G: Personal mobile internet beyond what cellular did to telephony | IEEE Journals & Magazine | IEEE Xplore[↩]
- (PDF) Haptic-feedback smart glove as a creative human-machine interface (HMI) for virtual/augmented reality applications (researchgate.net)[↩]
- • Global IoT and non-IoT connections 2010-2025 | Statista[↩]
- Internet of Things,物联网。[↩]
- Roborace是由Formula E和NVIDIA投资的一项无人电动赛车赛事,赛车为统一设计,各参赛队伍需要调整自己自动驾驶软件来取得优胜。[↩]
- Roblox: Hyundai Mobility Adventure。[↩]
- 图灵机指的是可以在有限步数内通过输入、处理、输出解决问题的逻辑机器。冯·诺依曼机指的是具备控制器、运算器、存储器、输入设备与输出设备、以二进制处理数据、程序文件统一存储的机制的计算机,冯·诺依曼机属于图灵机。目前所有的计算机都属于冯·诺依曼机,也是图灵机。硅脑是超越冯·诺依曼架构的图灵机,而超越图灵机则已经不属于图灵机的范畴。这些人工智能的发展思路都是试图仿真人脑的信息处理范式,它们之间的[↩]
- Prototyping a digital twin for real time remote control over mobile networks: Application of remote surgery, IEEE。[↩]
- Smart City Platform Enabling Digital Twin | IEEE Conference Publication | IEEE Xplore[↩]
- Machine Learning based Digital Twin Framework for Production Optimization in Petrochemical Industry – ScienceDirect[↩]
- Controlling non-player characters using support vector machines | Proceedings of the 2009 Conference on Future Play on @ GDC Canada (acm.org)[↩]
- “Waifu”指ACG圈中的二次元纸片人老婆(Wife)。[↩]
- 不止是币。[↩]
- Meta-Key: A Secure Data-Sharing Protocol Under Blockchain-Based Decentralized Storage Architecture | IEEE Journals & Magazine | IEEE Xplore[↩]
- MeDShare: Trust-Less Medical Data Sharing Among Cloud Service Providers via Blockchain | IEEE Journals & Magazine | IEEE Xplore[↩]
- A Blockchain-Based Framework for Data Sharing With Fine-Grained Access Control in Decentralized Storage Systems | IEEE Journals & Magazine | IEEE Xplore[↩]
- Bitcoin’s academic pedigree | Communications of the ACM[↩]
- ARKit 概览 – 增强现实 – Apple Developer。[↩]
- Intel® RealSense™ Computer Vision – Depth and Tracking cameras (intelrealsense.com)[↩]
- 可视性和遮挡剔除 | 虚幻引擎文档 (unrealengine.com)[↩]
- Home | TrackIR (naturalpoint.com)[↩]
- PSAT-GAN: Efficient Adversarial Attacks Against Holistic Scene Understanding | IEEE Journals & Magazine | IEEE Xplore[↩]
- 深度学习超级采样 (DLSS) 技术 | NVIDIA[↩]
- Jaguar: Low Latency Mobile Augmented Reality with Flexible Tracking (att.com)[↩]
- Edge-Facilitated Augmented Vision in Vehicle-to-Everything Networks | IEEE Journals & Magazine | IEEE Xplore[↩]
- Stadia – One place for all the ways we play (google.com)[↩]
- Windows 365 Cloud PC | Microsoft[↩]
- Slate | World of Warcraft Gender Switching[↩]
- I’m A Man Who Plays As A Woman In Games, And I’m Definitely Not Alone (kotaku.com)[↩]
- hand-tracking · GitHub Topics · GitHub[↩]
- Gravity Sketch | 3D design and modelling software[↩]
- 认知盈余 (豆瓣) (douban.com)[↩]
- EVE是由冰岛CPC开发的一款太空科幻游戏。[↩]
- 李彦宏:中国用户更开放 多数情况下愿用隐私换便利|通信|知情权_网易新闻 (163.com)[↩]
- 中国著名科幻小说家、前电厂工程师兼摸鱼家,代表作品《三体》、《流浪地球》、《超新星纪元》等。[↩]
- 卡尔达肖夫指数(Kardashev Scale)是苏联天体物理学家Nikolai Kardashev提出的一种通过文明能够利用的总功率来衡量文明发展水平的指标。典型的Ⅰ型文明可以利用一颗星球的资源总和;Ⅱ型文明可以利用一个行星系统的资源总和;Ⅲ型文明可以利用一个星系的资源总和。目前人类的卡尔达肖夫指数大约在0.7。[↩]
- Matrioshka Brains,指的是环绕一颗恒星建立起来的、直接以恒星辐射为能源的超级计算机阵列,由天文学家Robert J. Bradbury在Year Million: Science at the Far Edge of Knowledge当中提出的一种设想。[↩]