有了AI,人人都可以是艺术家。AI绘画的出现,恰如瑞士艺术家保罗·克利所言:“艺术不是再现可见,而是使不可见成为可见。”经过20年左右的发展,目前基于不同类型或者模态元素的AI绘画发展情况不尽相同,发展最久的是“以图生图”,再到近期火爆的“文+图”生图。当然,也有团队已经研发出由语音生成图像的技术。
上传一张图片,或者输入一些简单的关键词,系统就能自动生成一张卡通图像……最近一段时间,AI绘画开始在互联网社交平台走红。
AI绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容的典型应用场景之一。其主要原理是收集大量已有作品,通过算法对其内容和风格特征进行解析,最后再生成新的作品,所以算法是AI绘画的核心。
当前,“凭空”生成图像的AI绘画,其实也会动辄“翻车”:也许上一秒AI通过你的照片绘出的是一张充满艺术感的二次元画像,下一秒你的宠物猫、狗则可能被画成可爱少女或肌肉猛男。
事实上,AI绘画早已火爆全球。第一张公开展出的、由人工智能创作的绘画作品《埃德蒙·贝拉米的肖像》曾于2018年在佳士得拍卖行以43.25万美元成交,那是一张由机器学习了从14世纪到20世纪的1.5万张肖像画之后自动生成的一张肖像画作品。
AI绘画是如何实现“凭空”生图的?除了娱乐外,AI绘画还有哪些潜在的应用前景?
从“以图生图”到“语音生图”
2022年,由人工智能创作的《太空歌剧院》一度火出圈。在美国科罗拉多州举办的新兴数字艺术家竞赛中,《太空歌剧院》获得“数字艺术/数字修饰照片”类别一等奖。它的构图、配色以及画面的细节堪称精致。然而,这个作品的创作者不是艺术家,而是来自美国科罗拉多州的游戏设计师。
这位游戏设计师在一个名为“Midjourney”的AI创作工具里,先输入几个关键词,如光源、构图、氛围等,得到了100幅作品,再进行约80小时的修图修饰,最终选出3幅作品,最后把图像打印到画布上。
通过简单交互式对话在短时间内生成的“艺术”作品,让人类艺术家展开了一场关于“AI绘画作品参赛是否属于作弊”的争论。这场声势浩大的争论也令大众直观地意识到如今的AI绘画水平已经发展到了何种程度。
“人工智能在艺术方面的创作最早可以追溯到上个世纪末,当时的人工智能绘画技术叫作‘图像的风格化滤镜’。”中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员董未名说,最初的AI绘画方法比较简单,比如一张普通的照片,通过一些图像处理的算法,把照片像素进行几何或者色彩上的变换,然后再调节不同参数,就可以模拟出类似油画或者水彩画的风格。
经过20年左右的发展,目前基于不同类型或者模态元素的AI绘画发展情况不尽相同,发展最久的是“以图生图”,再到近期火爆的“文+图”生图。当然,也有团队已经研发出由语音生成图像的技术。
AI绘画主要依靠三种技术模式实现
董未名介绍,目前AI绘画主要借助图像风格迁移技术、图文预训练模型和扩散模型实现。
“图像风格迁移技术指的是图像处理算法通过对输入的真实图像内容特征和对参考的艺术图像风格特征的提取,实现真实图像内容特征和艺术图像风格特征的融合,从而生成新的艺术图像。”董未名举例,如果将美国旧金山艺术宫的外景照片和印象派创始人莫奈绘制的作品,通过图像风格迁移技术进行融合,就能得到一张看起来像是由莫奈绘制的美国旧金山艺术宫的绘画作品。最初的AI绘画采用的正是这种技术。
不过,在董未名看来,图像风格迁移技术大多依赖的是生成式对抗网络(GAN)算法,它最大的问题是生成的绘画作品艺术性不强,笔触和构图让人觉得与真实的绘画有差距,所以长久以来,AI绘画一直“籍籍无名”。
当图像风格迁移技术还在挣扎于输出作品的审美问题时,图文预训练模型的出现,加速了AI绘画的崛起。
“依托图文预训练模型,只要输入一句话或者上传一幅风格明显的图片,算法就能将图像特征和文字特征‘对齐’。生成的绘画作品的内容特征和上传图片的内容相似,艺术性也比图像风格迁移技术生成的图片强很多。”董未名举例,比如支撑图文预训练模型的可对比语言—图像预训练(CLIP)算法,就是利用图文特征“对齐”的能力,再结合已有的生成模型,实现“以图生图”或者“图+文”生图。
不过,董未名坦言,图文预训练模型的推广也存在一些争议,有部分人认为,该模型在训练前期,需要用大量的图形处理器(GPU)进行数据训练,耗电量大、成本很高,而该模型的应用场景却不够清晰。但也有人认为,也许该模型未来可以打造为通用的人工智能模型,用它完成更多的算法作业,只是这还需要时间的验证。
诚然没有一项技术是完美的,这也为人类探究更先进的技术提供了无限动力。当下最流行的扩散模型便是其中之一。
“目前最新的AI绘画技术采用的就是扩散模型,这种模型可以把一个随机采样的噪声输入模型,然后尝试通过去噪来生成图像。”董未名表示,扩散模型也存在弱点,由于模型对图片内容识别的能力不足,或者难以完全理解识别文字的意义,以及训练数据的偏差,有时便会生成“四不像”的作品。此外,扩散模型生成图片的速度比较慢,目前还达不到实时生成图片。
互联网治理、元宇宙或潜藏应用前景
AI绘画目前的应用场景,更多聚焦于社交软件。近期在国内社交网络“火出天际”的AI绘画软件主要集中在小程序及App。随着AI绘画小程序的火爆,短视频平台抖音也迅速上线了AI绘画特效。同时,此前腾讯上线了“QQ小世界AI画匠”活动,百度也推出了首款AI艺术和创意辅助平台“文心一格”。
有了AI,人人都可以是艺术家。AI绘画的出现,恰如瑞士艺术家保罗·克利所言:“艺术不是再现可见,而是使不可见成为可见。”“AI现在已经完美实现了这一目标,人们可以通过机器计算来绘制出很多现实中见不到的场景。”董未名畅想,不远的将来,AI绘画或许还将展现更丰富的应用场景。
“现在网络上充斥着很多不良内容,这些内容为了逃避监管经常以绘画的形式出现,而当前很多内容识别模型对真实图片识别得很准确,但缺乏不良内容艺术作品的相关训练数据,所以对不良内容识别不准确。也许可以用AI绘画技术,积累不良内容艺术作品的数据,并用以训练识别模型,以提升互联网内容的安全监管能力和识别的准确率。”董未名建议。
在董未名看来,作为一种艺术呈现形式,AI绘画也将在元宇宙、设计、文旅等行业催生新的商业模式。例如AI绘画目前在AI辅助创作、短视频、影视制作和元宇宙等方面都有布局,因为这些赛道都离不开创意,AI绘画可以帮助创作者通过简单的特征输入,实现对其创意的预览,甚至可以直接进行创作。
不过,董未名并不讳言,当下AI绘画仍然存在版权争议问题。AI绘画的核心是模型,而训练模型需要使用大量图像、文本数据。对于未经授权的图片,经过运算之后所生成的图像版权归属尚难界定。“有的画家风格特别明显,如果用画家的画去训练算法模型生成作品,那最后的版权属于谁呢?”董未名提出的问题,正是多数AI绘画作品所面临的现实问题。
AI绘画掀起了一场资本的群体狂欢,希望有一天它能走出“照猫画虎”的尴尬,真正服务艺术创作、创造更多价值。(科技日报记者 金凤)
诺奖问答| 2022 年诺贝尔化学奖授予点击化学和生物正交化学,有哪些信息值得关注?******
相比起今年诺贝尔生理学或医学奖、物理学奖的高冷,今年诺贝尔化学奖其实是相当接地气了。
你或身边人正在用的某些药物,很有可能就来自他们的贡献。
2022 年诺贝尔化学奖因「点击化学和生物正交化学」而共同授予美国化学家卡罗琳·贝尔托西、丹麦化学家莫滕·梅尔达、美国化学家巴里·夏普莱斯(第5位两次获得诺贝尔奖的科学家)。
一、夏普莱斯:两次获得诺贝尔化学奖
2001年,巴里·夏普莱斯因为「手性催化氧化反应[1] [2] [3]」获得诺贝尔化学奖,对药物合成(以及香料等领域)做出了巨大贡献。
今年,他第二次获奖的「点击化学」,同样与药物合成有关。
1998年,已经是手性催化领军人物的夏普莱斯,发现了传统生物药物合成的一个弊端。
过去200年,人们主要在自然界植物、动物,以及微生物中能寻找能发挥药物作用的成分,然后尽可能地人工构建相同分子,以用作药物。
虽然相关药物的工业化,让现代医学取得了巨大的成功。然而随着所需分子越来越复杂,人工构建的难度也在指数级地上升。
虽然有的化学家,的确能够在实验室构造出令人惊叹的分子,但要实现工业化几乎不可能。
有机催化是一个复杂的过程,涉及到诸多的步骤。
任何一个步骤都可能产生或多或少的副产品。在实验过程中,必须不断耗费成本去去除这些副产品。
不仅成本高,这还是一个极其费时的过程,甚至最后可能还得不到理想的产物。
为了解决这些问题,夏普莱斯凭借过人智慧,提出了「点击化学(Click chemistry)」的概念[4]。
点击化学的确定也并非一蹴而就的,经过三年的沉淀,到了2001年,获得诺奖的这一年,夏普莱斯团队才完善了「点击化学」。
点击化学又被称为“链接化学”,实质上是通过链接各种小分子,来合成复杂的大分子。
夏普莱斯之所以有这样的构想,其实也是来自大自然的启发。
大自然就像一个有着神奇能力的化学家,它通过少数的单体小构件,合成丰富多样的复杂化合物。
大自然创造分子的多样性是远远超过人类的,她总是会用一些精巧的催化剂,利用复杂的反应完成合成过程,人类的技术比起来,实在是太粗糙简单了。
大自然的一些催化过程,人类几乎是不可能完成的。
一些药物研发,到了最后却破产了,恰恰是卡在了大自然设下的巨大陷阱中。
夏普莱斯不禁在想,既然大自然创造的难度,人类无法逾越,为什么不还给大自然,我们跳过这个步骤呢?
大自然有的是不需要从头构建C-C键,以及不需要重组起始材料和中间体。
在对大型化合物做加法时,这些C-C键的构建可能十分困难。但直接用大自然现有的,找到一个办法把它们拼接起来,同样可以构建复杂的化合物。
其实这种方法,就像搭积木或搭乐高一样,先组装好固定的模块(甚至点击化学可能不需要自己组装模块,直接用大自然现成的),然后再想一个方法把模块拼接起来。
诺贝尔平台给三位化学家的配图,可谓是形象生动[5] [6]:
夏普莱斯从碳-杂原子键上获得启发,构想出了碳-杂原子键(C-X-C)为基础的合成方法。
他的最终目标,是开发一套能不断扩展的模块,这些模块具有高选择性,在小型和大型应用中都能稳定可靠地工作。
「点击化学」的工作,建立在严格的实验标准上:
反应必须是模块化,应用范围广泛
具有非常高的产量
仅生成无害的副产品
反应有很强的立体选择性
反应条件简单(理想情况下,应该对氧气和水不敏感)
原料和试剂易于获得
不使用溶剂或在良性溶剂中进行(最好是水),且容易移除
可简单分离,或者使用结晶或蒸馏等非色谱方法,且产物在生理条件下稳定
反应需高热力学驱动力(>84kJ/mol)
符合原子经济
夏尔普莱斯总结归纳了大量碳-杂原子,并在2002年的一篇论文[7]中指出,叠氮化物和炔烃之间的铜催化反应是能在水中进行的可靠反应,化学家可以利用这个反应,轻松地连接不同的分子。
他认为这个反应的潜力是巨大的,可在医药领域发挥巨大作用。
二、梅尔达尔:筛选可用药物
夏尔普莱斯的直觉是多么地敏锐,在他发表这篇论文的这一年,另外一位化学家在这方面有了关键性的发现。
他就是莫滕·梅尔达尔。
梅尔达尔在叠氮化物和炔烃反应的研究发现之前,其实与“点击化学”并没有直接的联系。他反而是一个在“传统”药物研发上,走得很深的一位科学家。
为了寻找潜在药物及相关方法,他构建了巨大的分子库,囊括了数十万种不同的化合物。
他日积月累地不断筛选,意图筛选出可用的药物。
在一次利用铜离子催化炔与酰基卤化物反应时,发生了意外,炔与酰基卤化物分子的错误端(叠氮)发生了反应,成了一个环状结构——三唑。
三唑是各类药品、染料,以及农业化学品关键成分的化学构件。过去的研发,生产三唑的过程中,总是会产生大量的副产品。而这个意外过程,在铜离子的控制下,竟然没有副产品产生。
2002年,梅尔达尔发表了相关论文。
夏尔普莱斯和梅尔达尔也正式在“点击化学”领域交汇,并促使铜催化的叠氮-炔基Husigen环加成反应(Copper-Catalyzed Azide–Alkyne Cycloaddition),成为了医药生物领域应用最为广泛的点击化学反应。
三、贝尔托齐西:把点击化学运用在人体内
不过,把点击化学进一步升华的却是美国科学家——卡罗琳·贝尔托西。
虽然诺奖三人平分,但不难发现,卡罗琳·贝尔托西排在首位,在“点击化学”构图中,她也在C位。
诺贝尔化学奖颁奖时,也提到,她把点击化学带到了一个新的维度。
她解决了一个十分关键的问题,把“点击化学”运用到人体之内,这个运用也完全超出创始人夏尔普莱斯意料之外的。
这便是所谓的生物正交反应,即活细胞化学修饰,在生物体内不干扰自身生化反应而进行的化学反应。
卡罗琳·贝尔托西打开生物正交反应这扇大门,其实最开始也和“点击化学”无关。
20世纪90年代,随着分子生物学的爆发式发展,基因和蛋白质地图的绘制正在全球范围内如火如荼地进行。
然而位于蛋白质和细胞表面,发挥着重要作用的聚糖,在当时却没有工具用来分析。
当时,卡罗琳·贝尔托西意图绘制一种能将免疫细胞吸引到淋巴结的聚糖图谱,但仅仅为了掌握多聚糖的功能就用了整整四年的时间。
后来,受到一位德国科学家的启发,她打算在聚糖上面添加可识别的化学手柄来识别它们的结构。
由于要在人体中反应且不影响人体,所以这种手柄必须对所有的东西都不敏感,不与细胞内的任何其他物质发生反应。
经过翻阅大量文献,卡罗琳·贝尔托西最终找到了最佳的化学手柄。
巧合是,这个最佳化学手柄,正是一种叠氮化物,点击化学的灵魂。通过叠氮化物把荧光物质与细胞聚糖结合起来,便可以很好地分析聚糖的结构。
虽然贝尔托西的研究成果已经是划时代的,但她依旧不满意,因为叠氮化物的反应速度很不够理想。
就在这时,她注意到了巴里·夏普莱斯和莫滕·梅尔达尔的点击化学反应。
她发现铜离子可以加快荧光物质的结合速度,但铜离子对生物体却有很大毒性,她必须想到一个没有铜离子参与,还能加快反应速度的方式。
大量翻阅文献后,贝尔托西惊讶地发现,早在1961年,就有研究发现当炔被强迫形成一个环状化学结构后,与叠氮化物便会以爆炸式地进行反应。
2004年,她正式确立无铜点击化学反应(又被称为应变促进叠氮-炔化物环加成),由此成为点击化学的重大里程碑事件。
贝尔托西不仅绘制了相应的细胞聚糖图谱,更是运用到了肿瘤领域。
在肿瘤的表面会形成聚糖,从而可以保护肿瘤不受免疫系统的伤害。贝尔托西团队利用生物正交反应,发明了一种专门针对肿瘤聚糖的药物。这种药物进入人体后,会靶向破坏肿瘤聚糖,从而激活人体免疫保护。
目前该药物正在晚期癌症病人身上进行临床试验。
不难发现,虽然「点击化学」和「生物正交化学」的翻译,看起来很晦涩难懂,但其实背后是很朴素的原理。一个是如同卡扣般的拼接,一个是可以直接在人体内的运用。
「 点击化学」和「生物正交化学」都还是一个很年轻的领域,或许对人类未来还有更加深远的影响。(宋云江)
参考
https://www.nobelprize.org/prizes/chemistry/2001/press-release/
Pfenninger, A. Asymmetric Epoxidation of Allylic Alcohols: The Sharpless Epoxidation[J]. Synthesis, 1986, 1986(02):89-116.
Rao A S . Addition Reactions with Formation of Carbon–Oxygen Bonds: (i) General Methods of Epoxidation - ScienceDirect[J]. Comprehensive Organic Synthesis, 1991, 7:357-387.
Kolb HC, Finn MG, Sharpless KB. Click Chemistry: Diverse Chemical Function from a Few Good Reactions. Angew Chem Int Ed Engl. 2001 Jun 1;40(11):2004-2021.
https://www.nobelprize.org/uploads/2022/10/popular-chemistryprize2022.pdf
https://www.nobelprize.org/uploads/2022/10/advanced-chemistryprize2022.pdf
Demko ZP, Sharpless KB. A click chemistry approach to tetrazoles by Huisgen 1,3-dipolar cycloaddition: synthesis of 5-acyltetrazoles from azides and acyl cyanides. Angew Chem Int Ed Engl. 2002 Jun 17;41(12):2113-6. PMID: 19746613.
(文图:赵筱尘 巫邓炎)