我国科学家近期取得一项研究成果,能够让动态无线充电更高效。其未来应用有望让无人机边飞边充电。相关成果近日发表于国际学术期刊《自然·通讯》。
西安电子科技大学电子工程学院李龙教授课题组在无线能量传输和无线定位领域取得突破性进展,构建了一种基于双频超表面的无线传能、感知定位与通信一体化原型系统,实现了自适应追踪的无线能量传输。在这一系统中,超表面不仅实现了精确的目标定位,还能根据实时变化的环境和目标,进行灵活的能量聚焦,实现跟踪式隔空输能。
与传统的无线充电方式相比,该技术具有显著的优势:能够支持多个终端设备在移动过程中进行高效的非接触式无线充电,例如运动中的无人机、智能机器人等,为其提供稳定、高效的电力供应。
据悉,该论文成果以西安电子科技大学为第一单位发表,电子工程学院博士生夏得校为论文第一作者,李龙教授和东南大学崔铁军院士为共同通讯作者。
今天(12月26日),我国自主设计建造的深远海多功能科学考察及文物考古船“探索三号”在广州南沙正式交付启航。“探索三号”是我国首艘具有覆盖全球深远海探测并具备冰区载人深潜支持能力的综合科考船。
“探索三号”船长约104米、排水量约10000吨,最大航速16节、艏艉双向破冰、续航力15000海里、载员80人。首次完成了全系列极地作业科考操控设备及国内最大水密科考月池系统装备、冰区深海声学探测、通信及定位装备,船舶动力定位系统等国产化技术的攻关和搭载。
在研建过程中,各研究机构、企业和高校等通过对关键核心技术集智攻关,突破了冰区船舶关键设计技术、冰载荷下高精动力定位控制技术、智能船舶控制技术等多项关键技术的垄断瓶颈,使我国载人深潜能力从全海深拓展到全海域。
2024年,伴随人工智能大模型能力的不断进化,各类AI应用也遍地开花,理解语义、生成高质量文本内容已成常态,AI情感陪伴与人类“共情”,AI助手为几百页英文判决做摘要,视频生成模型的高歌猛进使得AI闯入电影制作领域……如果说2023年是百模大战、千模大战,2024年则是应用之战,新一代的AI技术正在开始进入普通人的工作与生活。
2024年大家都在用哪些AI软件?澎湃科技围绕这个问题展开了一项“不完全调查”。在这份调查中,我们发现一个有趣的现象,那就是“在一部分人还从未尝试过AI应用的同时,另一部分频繁使用AI的人已经着迷于挖掘各类AI应用的价值”,正所谓“越了解越疯狂”,他们应用的AI工具不仅有本土国产,也有很多海外版软件;此外,就年龄段来看,年轻人明显对新技术更加充满好奇。
这是一款由上海秘塔网络科技有限公司2024年初上线的AI搜索工具,受到很多专业人士的青睐,但现在看来,语音互动做得不够。
用户:80后金融科技公司高管、70后律师事务所合伙人
用途:用秘塔收集偏研究类的材料还是比较专业的,用中文询问它国外的研究性论文,它可以检索出相应的英文论文检索,检索准确率较高。因为它的研究功能会索引很多论文,所以回复很有深度。
待提升:虽然秘塔也有语音功能,但语音交互做得不够好,譬如开车时无法与它互动,我希望它搜出结果后能念给我听。此外,它很容易忘记前几轮的对话内容,从而变成了一次性的对话,但我觉得只有实现多轮交互的应用才能变成真正的助手。
秘塔APP的iOS版本和讯飞输入法冲突严重,语音输入经常中断,貌似搜索结果的质量相较之前有所下降。此外,秘塔不支持文件摘要,其实我使用人工智能应用比较多的功能是文件摘要,对境外几百页的英文判决书做摘要后方便我阅读,在这一点上,我觉得目前国内做得比较好的还是Kimi。
国内明星大模型创业企业月之暗面科技有限公司(Moonshot AI)开发的智能助手产品,2023年10月9日首次公开,以长文本的阅读见长,用户相对年轻化。
用户:年龄“30+”的市场运营人员、20岁的大学生
用途:可以阅读长篇pdf、搜索在线信息,可以帮忙列一些SQL(Structured Query Language,即结构化查询语言,是一种用来操作数据库系统的编程语言)逻辑,也可以帮我写一些工作中常用的总结、复盘、自评等文件。
待提升:对于Excel数据和文字的爬取处理效果都很不太行,10以内的简单计数都可能会出现错误,还是不够聪明,特别是在语义理解方面。
另一家国内明星大模型创业公司北京智谱华章科技有限公司推出的AI智能应用。
用户:30岁的自媒体创作者
用途:几乎每天都在用于阅读长篇文档,智谱清言能够理解和生成各种复杂结构的语言,生成的文本流畅自然,在对话和创作方面表现不错。
待提升:在特别专业的知识点方面还有所欠缺。
国内科技大厂字节跳动开发的人工智能工具,貌似用户覆盖了20-40岁的年龄群体。
用户:00后CSDN编辑、30岁的公职人员、40岁的律师
用途:豆包有一个自带的智能体可以进行双语翻译,我们之前开大会有同传翻译的需求,我就带着豆包上阵了。豆包应该也是国内最早做AI浏览器助手的,植入YouTube和Bilibili后,就可以自带双语字幕、视频总结、思维导图等功能。
豆包写的短评形式上像那么回事,能从刑法、民法、行政法等各个角度分析。
待提升:虽然形式是那么回事,但内容空洞,都是语焉不详的大路货,立论浅薄,不能达到发表水平,这也是大多数AI应用存在的共同问题。搜集资料和回答知识性内容时真实性存疑,需要用户自主搜索反复验证。
通义千问是今年4月由阿里云推出的大模型应用。
用户:28岁的自媒体博主
用途:通义千问的语音转录文字、实时字幕识别功能很方便,而且全免费,没有广告。
待提升:只有图文对话,功能比较局限,我更想要语音。
文心一言
文心一言是百度开发的大模型应用。
用户:高校教师、公职人员
用途:极大地减轻了文案撰写、资料整理等工作负担。它能提供丰富的知识和信息支持,帮助我更好地完成教学和研究任务。
待提升:遇到特别专业的问题比如深奥的论文时,有可能会犯迷糊;语言没有什么创意。
ChatGPT
OpenAI公司开发的基于GPT(生成式预训练变换器)模型的自然语言处理应用, 2023年5月ChatGPT的iOS版应用上线,开启了新一代人工智能浪潮。虽然ChatGPT至今尚未在中国落地,但作为大模型的领导者,中国粉丝依然众多,且覆盖群体广泛。
用户:小学教师、媒体工作者、科研人员、大学生
用途:能够提供一些灵感,辅助教学设计,优化教学内容和方式;也能够支持撰写学术文章时的润色,撰写格式类稿件,还可以生成代码、绘制图片,总之提高了工作效率。
待提升:对专业术语和细分领域知识的理解深度还不够;数据处理和分析能力也不强;最好能增加多模态交互功能,例如结合图像和视频分析等;如果长期使用后,能进一步强化对个人偏好和需求的适配能力就更好了。
中国用户使用不方便,中文语料库相对欠缺,生成的中文文本带有明显的西方逻辑思维;收费也蛮高的。
Midjournery
Midjournery是美国大模型创业公司发布的一款AI绘画工具。
用户:32岁UI/视觉设计师、大学生
用途:其功能在持续更新,生成的图片质量较高,基本能满足非艺术专业的需求,且水平稳定,操作简单,用文本输入即可生成图片,操作上的学习成本较低,且可以一次生成多个版本供选择。
待提升:希望可以用语言控制修改;费用依旧较高(最低级别会员10美元/月)且有使用次数的限制,低级别会员生成的图片分辨率较低,且对中文的理解不如英文。
Claude
美国人工智能初创公司Anthropic 10月推出升级版的Claude 3.5 Sonnet模型
用户:00后CSDN编辑
用途:今年Claude 3.5 Sonnet出来后体验上带来很大颠覆,以前让各种AI模型写文章都会缩减篇幅,哪怕让它分几次输出,到后面也会越来越缩水,但Claude的Artifacts功能可以单独开一个小窗口让它写文章,避免了这种情况。以前用ChatGPT聊着聊着它就把上下文忘光了,但Claude的底层逻辑是会在每次输入时把同一个窗口的所有资料内容全部重新看一遍,理解力很强。
待提升:只能说英文使用比中文效果好。
Runway
AI视频公司Runway推出的一款AI视频应用。
用户:32岁摄影师
用途:每天都在使用,可以合图生成,生成质量稳定,更新较频繁。
待提升:价格太高,生成时间较长。
2024是AI应用大爆发的一年,但事实上还没有哪一款软件完全占领了消费者市场,相信在接下来的2025年伴随着技术的不断完善,用户的体验也将得到提升,我们仍然可以期待更多更好用的AI软件登场。
今日的决心选择了后天的命运,如何让中国创新引领全球科技,布局未来产业成为今天中国推动科技产业引领世界的必经之路。
过去,我们习惯了“1到10、1到100”跟随式创新,今天,中国更需要的是“从0到1”原创式创新。原创式创新从哪里来,如何为“从0到1”修路架桥,从而建立起全新的“从0到100”的科技生态链?
2024年9月,上海宣布成立首个百亿级未来产业基金,作为上海未来产业基金的管理人,上海未来启点私募基金管理有限公司总经理魏凡杰一直在琢磨这个问题,“未来基金要解决一个什么问题?我们其实之前也没有完全想明白。”
2025年1月7日,在上海未来产业基金完成备案注册当日、品牌正式发布前夕,作为未来产业基金总经理的魏凡杰对澎湃科技说,“现在我们已经完全想明白了,我们就做一件事,就是怎么样把中国投入了众多科研经费的科研成果和产业界的联系建立起来,把‘0到1’真正地衔接起来。”
魏凡杰强调,做成这件事关键要支持一批年轻人,包括年轻的投资人、年轻的科学家、年轻的创业者,构建起新型科创生态,全方面赋能科创企业,进而托举起中国的未来产业。
1月8日,上海市政府副秘书长尚玉英、上海市科委主任骆大进、上海国投公司董事长袁国华共同启动上海未来产业基金品牌。
探索科技成果转化无人区,孵化中国的Flagship
中国缺乏原创式创新,在魏凡杰看来,这其中既有参与者的认知因素,也有时代机遇的流转。“过去40年里,中国投入科研的经费并不少,但基础研究基本都在高校、研究机构中,写成论文就结束了;在产业界的科技创新中,原创的比例是很小的,中国的很多所谓创新其实是来自模仿和学习。”
真正的颠覆式创新需要10年甚至20年时间的积累,这类研究绝大多数都在大学或研究所里。中国要成为一个真正的创新大国,需要把这部分颠覆式创新技术挖掘出来利用到产业中。但当下企业一般最多会做未来五年能用到的技术研究作为储备。
“这就导致和国外相比,中国工业界跟学术界之间的联系很少,中国的工业界也接不住学术界的原始创新成果。”魏凡杰说。
在美国,投资机构Flagship孵化了全球制药巨头莫德纳公司,是投资科学、科学变产业的典型案例。而在中国,以往众多成功的投资案例来自于投资人对于商业模式的选择,投资人普遍缺乏将科学变成产业的能力。
此外,对于早期投资来说,很多投资基金在操作上也存在难度。投资“1到10,10到100”的基金每次出手起码都是千万级别,但“0到1”的技术孵化项目最初并不需要太多资金,几百万元可能就够了。虽然今天“投早、投小、投硬”成为了众多基金投资人在演讲时的口号,但真正愿意为此付诸行动的并不多,原因在于投早期需要管理更多的项目,更长时间的等待,以及除了资金之外,需要给予更多包括人才、组织管理、供应链等等资金以外的支持。
毕业于北京大学物理学专业和多伦多大学材料工程的魏凡杰,在此之前已经从事了多年的科研成果转化工作。2017年,当投资人都在投资互联网企业,魏凡杰的团队已经在布局硬科技投资。在担任北京科创基金执行总经理的7年多时间里,他几乎天天和科学家打交道。多年的科技成果转化经历让他清晰看到科技成果转化的难点和痛点,“科学家往往贡献的是从0到1的科研成果,越往产业化之路纵深推进,技术对商业能否成功的决定因素比例会逐渐降低。”
虽然难点和痛点显而易见,但在魏凡杰看来,现在已经来到了探索科技成果转化,推动“从0到1”原创式创新的最好时机。
一方面是政府支持的革新。推进中国式现代化,科技要打头阵,新一轮的科技革命和产业变革浪潮中,带动性极强、发展潜力巨大但又需要长期研发投入和持续积累的硬科技,正在成为各个国家争相布局的主战场。另一方面科技迭代进程的加快,科技公司组织管理方式的差异,风投孵化模式的创新以及人工智能的催化,都使得打通产业界与学术界的联系、促成科技创新成果转化变得越来越有必要,这对于推动中国科技强国战略来说非常重要。
去年9月,上海设立首个百亿级未来产业基金,总规模100亿元,由上海市财政全额出资,基金期限长达15年,可根据情况申请延长3年。
“我们是耐心资本,我们要推动中国'从0到1'的科技成果转化的探索,我们希望未来有无穷的可能性。”在1月8日举行的上海未来产业基金投资策略及品牌发布会上,魏凡杰作出上述表示。“孵化中国的Flagship”,是魏凡杰对于上海未来产业基金定位的另一个更为直接的解释。
上海未来产业基金管理人魏凡杰。
挖掘和培育一批年轻科学家、投资人、创业者
未来产业基金将采用“直接投资+子基金投资”模式,但无论是对于子基金的选择还是投资项目的选择,都离不开对人的选择。在当日发布会上,魏凡杰表示,除了要成为真正的耐心资本,也希望基于上海未来产业基金构建全球化的人才社区。当日,发布会汇聚了来自国内脑机接口、量子计算、人工智能、生命科学等各类前沿科学领域的顶级科学家、创业者,以及投资人。
100亿元的未来产业基金规模是限定的,对于未来产业基金来说,更重要的作用是撬动起更多的社会资源,让更多人听到未来产业基金吹响的创新号角,并投身其中。
魏凡杰说,未来产业基金将以人为核心,通过母基金的纽带把科学家、企业家、创业者、项目经理人和投资人的顶尖智力与能力在同一个平台上打通。在他的工作计划中,未来产业基金要建立战略科学家委员会、科技项目经理人投研团队和概念验证经费联动投入等机制,完善从源头发现到产业转化的链路。
其中,战略科学家委员会负责战略性研判未来产业方向,发现前沿领域优秀投资对象。“我们不会什么未来产业都干,更多是有一个方向值得干,我们就重仓。我们跟投资人、战略科学家一起看方向,比别人更早看到信号,提前布局。”
以往的投资模式不适用于科技成果转化,在魏凡杰看来,传统的风险投资人也不适合投资未来产业,未来产业基金要发掘一批在细分科技领域具备认知的年轻的专业投资人,建立起全新的投资理念。
“我们已经进入了中国科技成果转化无人区,我们在探索很多新东西。”魏凡杰表示,以概念验证经费联动投入机制为例,很多论文发布后要经历做实验的“原型机”阶段,国家投入了巨额的科研经费,但因为缺乏具备市场化判断能力的机构和投资人参与,使得项目转化成功率不高。
为了提高科技成果转化效率,可以让投资人参与概念验证项目,既给了投资人投资的机会,也考验投资人的眼光,因为参与的投资人也需要真刀实枪掏钱投入其中。“投资人愿不愿意投?投资人愿意投政府就投。如果干成了,财政资金可以将部分超额收益让利给投资人。”
未来产业基金的一个重要工作就是要找到和培育最优秀的投资人。魏凡杰相信未来中国的风险投资将涌现一批小而美、小而精的专业投资人,这些投资人具备高学历和科学认知,能够及早发现有潜力的早期创新项目,能够和科学家、创业者对话,聚焦深度孵化,为项目赋能。
有了科学家和投资人,“从0到1”,从学术走向产业,还有不可或缺的企业家。由于和太多科学家打过交道,魏凡杰深知运营一家公司需要的能力常常是科学家所不具备的,科技项目经理人也是打造科创生态中和科学家、投资家同等重要的一类人才。未来产业基金正在筹划的科技项目经理人投研团队,便是负责支撑项目布局策划,协同各类资源,推进项目的概念验证、落地孵化和产业化等各类工作的重要角色。科技项目经理人如果能顺利将科研成果转化成公司,他也自然可以成为科创公司的管理者。依托母基金平台,与高质量孵化器、新型研发机构、风险投资机构等合作构建上海创业者社区,挖掘企业家人才。
在这一过程中,未来产业基金希望能支持更多年轻的科学家、创业者和投资人,构建全新的科创生态。“年轻一代会颠覆上一代,永远要相信年轻人的潜力。”魏凡杰对澎湃科技说,他相信未来上海一定能够建立从0到1、从1到100的更加健康可持续的科技创新生态系统,促进创新源头的优秀成果转化为新质生产力。
今天(16日)中国科学院在北京表彰获2024年度中国科学院杰出科技成就奖的科学家和科研成果。
中国科学院物理研究所陈立泉院士、中国科学技术大学陈仙辉院士获个人成就奖,
“银河系早期形成与演化”等4项成果获基础研究奖,“大规模压缩空气储能新技术与应用”等5项成果获技术发明奖,
“黑土区耕地退化阻控与地力提升关键技术”等5项成果获科技攻关奖。
据了解,获个人成就奖的陈立泉院士自1976年起就从事并坚守锂电池研究,在我国最早开展锂电池基础研究和技术攻关,为我国锂电池从无到有、从“跟跑”到“领跑”作出了奠基性贡献。另外一名获个人成就奖的陈仙辉院士长期从事量子材料领域研究,在笼目超导体、界面超导、磁性拓扑绝缘体等前沿领域持续做出引领性工作。
2024年,为贯彻国家科技奖励改革精神,中国科学院修订了《中国科学院杰出科技成就奖励条例》,强化奖励导向,设立4个奖项实行分类评价。个人成就奖主要奖励长期活跃在科技前沿、取得重大创新成就、对相关学科领域发展作出卓越贡献的杰出科学家;基础研究奖旨在激励在基础研究和应用基础研究方面取得重大科学发现和原始创新成果;技术发明奖旨在激励在应用研究和技术开发方面获得高价值知识产权,通过推广应用取得显著经济效益、社会效益或生态效益;科技攻关奖旨在激励在国家重大科技攻关任务中突破关键核心技术,在解决国家重大战略需求或保障国家安全方面发挥关键作用。
1月15日,澎湃科技(www.thepaper.cn)获悉,AI独角兽企业MiniMax上海稀宇科技有限公司(以下简称“MiniMax”)发布并开源新一代01全新系列模型。该系列模型包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax称该系列模型可以实现高效超长文本输入。MiniMax认为,2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。
据了解,MiniMax-01系列模型首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。
MiniMax-01系列模型核心性能在多项任务评测结果显示结果
目前领先的大语言模型大都基于Transformer架构,而Transformer核心的自注意力机制是其计算成本的重要来源。为了优化计算效率,MiniMax研究社区提出了稀疏注意力、低秩分解和线性注意力等许多技术。通过使用线性注意力,原生Transformer的计算复杂度可从二次复杂度大幅下降到线性复杂度,在处理长输入的时候具有非常高的效率。
据了解,该模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
MiniMax认为,2025年将是Agent高速发展的关键年份,无论是单Agent系统还是多Agent系统,都需要更长的上下文来支持持续记忆和大量通信。MiniMax-01系列模型的推出,正是为了满足这一需求,迈出建立复杂Agent基础能力的第一步。
此外,MiniMax声称受益于架构的创新、效率的优化、集群训推一体的设计以及内部大量并发算力复用,得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token1元/百万token,输出token8元/百万token。
目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI,并在全球范围内上线,企业与个人开发者可前往MiniMax开放平台使用API。
过往的2024年,AI在投融资市场呈现火热的趋势,美国“科技七巨头”市值增长了6万亿美元,类似OpenAI、Perplexity、xAI和Anthropic等AI明星企业都在2024年下半年频频传出新的融资消息。
和海外热火朝天的投资相比,中国AI市场经过两年的投入,行业竞争加剧,有不少创业公司开始扛不住大模型预训练消耗的资金和精力。2025年伊始,零一万物被曝其超大模型已经交由阿里训练,零一万物负责小参数、适中的行业模型。其创始人李开复对此回复称,“大家都看得很清楚,只有大厂能够‘烧’超大模型。”
“我不认为AI的价值在于专注开发模型,更重要的是应用,制胜之道是构建出更具有性价比、让每个人都能使用的平台和应用程序。”近日,OpenAI前全球商业化负责人、人工智能与商业战略专家Zack Kass在接受澎湃科技(www.thepaper.cn)专访时表示。
OpenAI前全球商业化负责人、人工智能与商业战略专家Zack Kass
Zack Kass认为,在过往的一年,AI价格变得更加低廉是显而易见的,这意味着仅专注模型本身和技术变化是不够的,让AI变得更加有性价比是一个发展趋势。对于中国AI初创公司来说,最应该关注的是将消费者应用程序变得更好、更高效、更具有性价比。
在Zack Kass看来,效率、多模态与AI Agent将是2025年AI的三大关键词。效率将推动AI技术的大众化,多模态将拓展AI的应用场景,而AI Agent则有望彻底改变软件行业的盈利模式。
【以下对话全文】:
AI正迅速变得更具有性价比
澎湃科技:就2024年AI整体的发展,你观察到哪些趋势性的变化?
Zack Kass:一方面我认为,其实人们并没有注意到人工智能对每个人的日常生活有多大的改善,仍在追问“AI泡沫”;另一方面,AI的价格迅速下降,这让我意想不到。这意味着,模型和技术变好是不够的,还要让它变得便宜。
成本的大幅降低意味着技术的可获取性大大提高,这在历史上往往预示着一场新经济的爆发式增长。当关键资源变得廉价时,通常会带来巨大的积极变化,我们希望AI尽可能便宜,这是一个大的趋势。
这个趋势对中国来说尤其有趣,这些模型的压缩使得它们能够以非常低廉的成本进行推理,从而实现技术的普遍平等。在这种情况下,我们实际上无法限制技术的获取。随着模型成本的持续降低,“单一模型提供商可以控制世界”的观点也站不住脚。
现阶段,依然很多人在警惕AI泡沫,认为过度夸大了人工智能的重要性,但我的看法是,现阶段人们还没有完全意识到人工智能真正的潜力。
澎湃科技:最近创新工场的联合创始人李开复在接受媒体采访时说,未来零一万物将不再追求训练超级大模型,创业公司投资大模型预训练的性价比太低。你怎么看?
Zack Kass:开发前沿模型是重要的,但更重要的是应用。李开复在这场大模型竞赛中的结果,并不是没有预测到。
我有一个“模型收益递减理论”,基本上是说,在某些时候,下一个新模型的出现并不重要。但在某些时候,新模型的出现又如此不可思议,然而总有一天新模型的出现会对我们不再那么重要,这表明朝着这个结果努力并不是真正的制胜之道,制胜之道是构建每个人都能使用的平台和应用程序。
澎湃科技:有没有你觉得在商业化做得比较好的AI公司?有哪些特点?
Zack Kass:Perplexity非常出色,因为它建立的模型是专门为一个非常关键的应用——搜索设计的。Perplexity把重点完全放在搜索这个巨大的类别上,建立了一个训练有素的模型。
我认为Perplexity的最终模式会是付费版本,它以后会卖广告的。更有趣的是,已经能看到很多软件公司在大规模地扩展自己的产品,很多人都在想办法在自己的软件产品中销售新的人工智能产品。
PerplexityAI
澎湃科技:对于中国企业想要利用AI的,你有什么建议?
Zack Kass:对于中国企业来说,采用人工智能有两种方式:第一种是改进内部流程,让AI帮助企业更好地运行,尤其是如果你是一家中小型企业,这样做就会非常有意义。互联网给我们带来了电子商务,一种全新的购买商品和服务的方式。反过来,AI也将以几乎无法想象的方式呈现新的商业模式,机会显然无处不在。
如果我是中国创业者,会更倾向于在AI软件或AI应用领域,尤其是生活消费类的方面。如果我成立一家人工智能公司,我会为像街角商店这样的消费场景开发人工智能软件。
总体来说,人们日常生活中涉及衣食住行的这类小生意,很容易快速实现商业化,也具有市场潜力,所以我认为向这些公司销售AI将会非常容易。
2025年的关键词是效率、多模态与AI Agent
澎湃科技:你对于2025年AI的发展有哪些预测?AI如何更好地融入我们的生活?
Zack Kass:目前,我们正处于第一个阶段——增强应用阶段。这在中国十分常见,即现有的应用程序,如微信等,现在借助AI获得授权或增强能力,我们只是接受了AI的存在,并将这些模型应用于现有应用程序中,从而现有世界的效率提高了30%~40%,用相同的应用程序能做更多事情。
接下来我们将进入自主代理(AI Agent)阶段。如今,大多数人已知晓自主代理,我们正快速接近一个不再需要打开应用程序并使用由AI授权或增强的应用程序的世界,而是将任务分配给AI代理,由其在应用程序和网络体验中执行任务。这令人兴奋,未来我们会花更少时间在应用程序本身上,而会把更多的时间将任务分配给在应用程序中执行任务的代理。
此外,在未来可能出现的多模态(multi-agent)AI世界中,可以在一定程度上操控手机上的不同软件,尤其是在通过不同的输入方式(如语音、图像、文字等)与手机应用程序进行交互时。
第三阶段是自然语言操作系统多模态。这一阶段稍显复杂,但主要会发生两件事:首先,我们将从携带个人电脑转变为佩戴它们,如以眼镜、手表或工作内容预测工具等形式出现。各大消费电子公司及部分非消费电子公司都在朝此方向努力,OpenAI也不例外。
我的观点是,世界很快将获得完全整合的、不计量的智能,能准确学习我们工作方式并嵌入到各种智能界面的世界里,未来了解大多数未知的事情并变得异常容易,人们也将认为完全获得智能是理所当然的。
澎湃科技:在你看来,人们应该如何应对这种变化?
Zack Kass:首先,你必须为事情的持续变化做好准备。现在世界发展得非常快,我建议大家将自身的适应性作为个人的核心战略,我希望所有的年轻人都能学会适应变化。现在仅仅说“我们可能会改变”是不够的,现在要求我们必须说“我们将改变”。
很多年轻人问我,“我应该学习什么才能获得一份好的工作”?我有一个令人失望的答案,“其实学什么并不重要”。你的专业与经济成果之间的正相关性正在快速下降,你学习的内容不再真正影响你的工作质量。
我并不认为AI会让更多人失业,这是人们对AI革命的误解。我最反感的是,我们开始围绕AI做不到的事情进行追问思考,我称之为“负空间(Negative Space)AI”。在美国硅谷每个人都在谈论AI能做的所有事情,关注AI积极的一面。比如,我去酒吧,有人发现我在OpenAI工作过,他们最喜欢问的问题是:“OpenAI接下来要建造什么?GPT-5什么时候到?”这是我最喜欢的问题,从来没有人问过我:“什么是AI不会实现的?”
如果担心会被AI取代的话,我们应该开始提升人文素质,AI将创造众多新兴工作岗位,并在全球范围内积累巨大价值,推动生活成本不断降低。
在短暂停止服务后,短视频社交媒体平台TikTok19日恢复在美国的服务。但有消息称,在18日早些时候,TikTok暂停服务前,美国人工智能初创公司Perplexity向TikTok母公司字节跳动提交了一份收购提案。据美国财经门户网站Investor’s Business Daily报道,该提案提出将Perplexity、TikTok美国以及新的资本合作伙伴合并成一个新实体。此合并方案允许字节跳动的大多数现有投资者保留股权。
19日,TikTok发表声明表示,将与美国候任总统特朗普一起寻找维持TikTok应用程序在美可用的长期解决方案。特朗普当日在社交媒体上发文,呼吁各公司不要让TikTok处于停止运转状态。特朗普说,他将于20日发布一项行政令,推迟TikTok“不卖就禁用”的法律生效时间,同时他还为Tiktok继续在美营运开出了条件,声称希望美国在合资企业中拥有50%的所有权。
Perplexity成立于2022年,是由AI 聊天机器人驱动的研究和对话搜索引擎,被称为生成性AI热潮中最有价值的年轻AI初创公司之一。该公司的早期投资者包括亚马逊创始人和新任CEO杰夫·贝索斯(Jeffrey Bezos)、Nvidia( NVDA )和风险投资公司New Enterprise Associates。在最新一轮融资后,Perplexity估值为90亿美元,大家对于其推出的收购提案不抱期望。Wedbush分析师Daniel Ives在一封电子邮件中对Investor’s Business Daily表示,“我们认为对Perplexity的收购无望,因其内在价值太低,不可能达成400多亿美元的交易。在TikTok竞争激烈的竞标过程中,马斯克是领先者。”
此前,TikTok已否认或将美国业务出售给马斯克,称未与马斯克方面谈过潜在的出售交易,且没有与中国监管层讨论过所谓出售的方案。马斯克现已成为特朗普的重要顾问,拥有社交媒体平台X,和杰夫·贝索斯(Jeff Bezos)是长期竞争对手。
此外,Perplexity的竞争者虎视眈眈。初创公司OpenAI的ChatGPT功能与Perplexity相似,同样是通过访问网络搜集信息,进行总结、整合、输出答案。OpenAI近期获得66亿美元的新融资,估值达到1570亿美元。谷歌股价在2025年上涨了3.5%,去年上涨了37%,有了TikTok,Perplexity可能会成为Alphabet(GOOGL)更强大的竞争对手。
·目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。
过去的一年,具身智能、人形机器人引发的关注与日俱增,但喧嚣过后,这一行业的发展也正面临着艰巨的挑战,其中训练具身智能大模型所需要的高质量数据在哪的问题成为眼下行业的一大共同的困扰。
日前,上海机器人初创公司智元机器人正式开源百万真机数据集AgiBot World使得数据缺乏问题再次被提起。智元机器人联合创始人、首席技术官彭志辉(网名为“稚晖君”)表示,在具身智能领域,真机数据的采集成本和门槛非常高,此次开源希望众多科研团队基于真实数据进行具身智能算法的训练,加速技术创新和产品应用。但在业内人士看来,“百万条真机数据量”对于行业来说只是杯水车薪,“只能训练一个动作的泛化,譬如分拣,对实现理想状态中的具身智能还远不够。”
除了数据缺乏的困扰之外,已有数据的标准化也是一个待解难题。
连最基础的数据都缺乏
不同于语言大模型的训练得益于互联网上海量的数据,具身智能“大脑”的训练则需要更多来自物理世界即真实世界动态环境中的交互数据,如何解决物理世界数据匮乏问题,成为眼下人形机器人技术演进路上最大的难题。
人形机器人创业企业之一——银河通用的创始人兼CTO、北京大学助理教授王鹤此前在不同场合多次提及具身智能领域面临数据集短缺的难题。王鹤认为,通用机器人背后的技术一定是具身大模型,要用数据驱动基础机器人大模型,让机器人能够有极高的泛化性和跨行业应用能力。但现有数据量不足以支持通用机器人的发展。
泛化性是指模型经过训练后,能够将一项行为应用到陌生的应用场景中的能力,在陌生场景中能自主识别任务并采取行动。国家地方共建人形机器人创新中心(以下简称“国地中心”)相关数据负责人在接受澎湃科技(www.thepaper.cn)采访时表示,行业内对于机器人泛化数据的获取始终是一大难题,现阶段,特斯拉的Optimus仍需要人为远程操作来帮助机器人完成任务,还不具备泛化能力。
国家地方共建人形机器人创新中心具身智能数据看板,澎湃科技记者拍摄。
北京航空航天大学机器人研究所名誉所长王田苗此前在接受澎湃科技采访时也指出,数据的匮乏让人形机器人很难具备泛化性。当前,机器人任务泛化、感知泛化和运动操作的三个泛化数据很难获取,比如让机器人叠衣服、骑自行车等这些数据很难得到。
王鹤团队从2023年开始探索大规模的灵巧手数据合成和大规模的泛化,2024年合成了10亿规模的数据体量,用于训练机器人的灵巧手。
总部位于深圳的一家向具身智能机器人提供基础场景数据和解决方案的创业公司艾欧智能联合创始人徐良威告诉澎湃科技,经过一年多对于机器人技术路径的探索发现,“只有通过海量数据训练才能够真正地通向具身智能”已经成为行业共识,通过仿真数据实现智能的可能性远远小于使用真实数据。然而,目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。
在徐良威看来,对于训练具身智能泛化能力来说,AgiBot World这种百万量级的数据集虽然已经取得明显的进步,但只是“杯水车薪,洒洒水而已”,达到理想的效果需要更大量的数据。
高质量数据获取采集成本过于昂贵
澎湃科技记者了解到,在具身智能领域实践中发展出四种具身智能采集训练数据:第一种是遥操作机器人数据,即需要一位人工数据采集员戴着遥操作手套,手把手示教,获取真机操作数据。通过这种方式获取的数据质量最高,但成本昂贵。第二种是仿真合成数据,在虚拟的3D仿真环境里从无到有地积累训练数据,这类训练数据以生成数据为主,与真实世界仍有较大差异。第三种是通过人类动作捕捉数据,也称为动作捕捉或动作追踪数据,是通过传感器、摄像头或其他设备,精确记录和分析人体运动的技术。这类方式获取的数据质量较高,但通过人类动作捕捉获取的数据,与机器人能否适配仍存在一定差异,需要后期继续做构型对齐相关工作。第四种数据来源是通过互联网获取人类动作视频或图像数据。这类方式的特点是能获得海量数据,但都是单一模态、非结构化且无标注的二维图像或视频信息,质量很差。
国地中心数据负责人指出,目前行业内最匮乏的是通过遥操作方式获取的高质量数据,仿真合成类数据获取成本低,但仍需要弥合仿真与现实世界的差距。然而,遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。
数据训练员穿上特制的动作捕捉服装训练人形机器人捕捉数据
“一台遥操设备投入约35万元,再加上人工数据采集员的成本,每人每天大约采集500条数据,人工成本至少需要300元,即便长期投入也无法保证成功。”国地中心数据负责人估算,特斯拉的人形机器人Optimus至少需要数百万小时的数据才能完全准备好在特斯拉工厂工作,这期间可能需要至少5亿美元的数据采集成本。
上述国地中心数据负责人向澎湃科技透露,即便银河通用专注于强化机器人大脑模型,强调仿真合成数据的使用,但仍面临一定挑战。“在仿真环境中参数看似正确,但在物理世界中,即使是微小的偏差也会导致完全不同的结果。比如,人形机器人执行蹲下起身这类动作时,不同机器人可能会有不同表现,电机参数任何微小变化可能会导致机器人出现完全不同的行为,很难控制。”
由于泛化数据采集成本高、获取难度大,国地中心数据负责人透露,现阶段行业内大部分按照1:9或者1:10的数据比例训练机器人,即一条遥操作机器人数据配以9条或者10条仿真合成数据,但这个比例目前还没有定论。
缺乏统一标准的数据集
徐良威认为,另一个关键问题是如何实现高效的数据采集。虽然通过人工操作机器人可以获取高质量的数据,但这种方式的效率极低。徐良威称,智元对外称一周可采集50万条数据,综合一年数据量也不过只能达到千万量级,这对具身智能训练效率非常低,难以提速。
除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。尽管海外有Google这类科技巨头已开源部分数据集,国内也有智元机器人开源百万条真机数据集等,但不同公司开放的数据集格式能否兼容、能否保持数据质量的一致性很难说。
“北京和上海的开源数据集能否兼容、数据格式是否一致,以及数据托管的方式有哪些不同,这些还有待出台统一的数据标准。”徐良威说,目前国内众多机器人公司正处于“百花齐放”的状态,在数据管理上也各自为政,这导致公司之间沟通成本非常高。
在数据处理上,目前行业内也缺少统一的数据处理标准。“不同公司、机构或平台对处理数据的方法不一,机器人如果要有效利用这些数据,还需进一步处理。”徐良威说,每个团队或公司可能都需要从头开始处理标注数据,这会浪费大量时间和资源,且无法保证训练结果的通用性。
近期,国家地方共建具身智能机器人创新中心牵头立项的《人工智能具身智能数据采集规范》工信部行业标准,规范了具身智能数据集采集的格式,使不同公司采集的数据可以互相共享开源,加速模型“涌现”,在徐良威看来,对从业者来说无疑是一个积极的信号。
2025年会出现更多的数据采集训练场
世界模型的出现似乎给人形机器人带来一些新的希望。去年12月,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。2025年1月6日,英伟达创始人兼首席执行官黄仁勋在2025CES(国际消费类电子产品展览会)期间,推出了涵盖生成世界基础模型的Cosmos世界基础模型平台,旨在加速自动驾驶汽车、机器人等物理AI系统开发。黄仁勋认为,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推进机器人和自动驾驶汽车的开发至关重要。”
徐良威称,这一类世界模型为通用智能提供空间、时间、物理、语义等各方面的模型表征。理论上来说,一方面,世界模型的成功使得机器人“理解世界”具备可能性;另一方面,世界模型能够在各维度下生成符合世界规律的数据,有潜力成为机器人合成数据的新范式。不过,虽然世界已经有一些阶段性的成果推出,但真正在机器人上应用,直至能够商业落地也还需要进一步发展。
数据缺乏在成为业内共识的同时,各方也在采取解决方案。2024年8月,特斯拉对外高薪招募“数据采集员”;2024年12月27日,北京国地共建具身智能机器人创新数据采集基地亮相。
据了解,从2024年下半年开始,位于上海张江的国家地方共建人形机器人创新中心也在搭建基于自己平台的数据采集训练场,目前,训练场的场地搭建工作以及数据采集机器人设备也基本到位,2025年计划招聘一些数据采集员来配合遥操作数据采集。2025年预期量产机器人的数量会上升,随之带来的数据采集量也会大幅增长,在数据采集成本方面也会下降。“今后可能会有一批便携式数据采集工具出现,这样会进一步降低数据采集成本。”相关人士透露。
在徐良威看来,北京、上海相继表示要共建具身智能机器人创新数据采集基地和搭建实训、模拟应用场景建设,核心价值远不止数据采集本身,更重要的是能够集中资源、缩短数据积累的时间,也相应地缩短了具身智能市场准入时间。他预测,2025年不同地区会加快建设数据采集训练场,以便从0到1的过程中尽快实现机器人的落地应用,此外数据采集方式将更加多样化。
【编者按】在上海市科学技术委员会资助(项目编号:22DZ2304300)下,澎湃新闻对获得国家及上海市科技奖励的获奖成果进行科普化报道。
本文围绕2020年度上海市自然科学奖一等奖项目“视觉信息处理与行为发生的神经机制”展开,该项目由中国科学院脑科学与智能技术卓越创新中心杜久林、穆宇、李莹、姚园园、张白冰完成。
中国科学院脑科学与智能技术卓越创新中心研究员杜久林。
没有人是一座孤岛。细胞,也是如此。神经元,即神经细胞,更甚。
杜久林的办公室在一排实验室中间。穿过长长的走廊,来到他办公室。电脑屏幕上闪烁着一个复杂、美妙的图像——紫色、蓝色、红色的光点点缀,荧光短线条彼此交错、连接,又分开枝杈,指向远方。
那是他和团队成员正在努力解开的神秘“宇宙”——大脑。他是中国科学院脑科学与智能技术卓越创新中心的研究员。
视觉中国 资料图
杜久林说,这是人类遇到的最复杂、最神秘的系统。“我们现在的大脑,是亿万年生物演化的产物。”它的功率很小,只有数十瓦。但功能很强大,是目前最先进新的人工智能无法望其项背的。它是怎么形成的,运行规则是什么?为什么会导致疾病?这些秘密都还若隐若现,离揭开谜底还有很长的路要走。在人工智能蓬勃发展的现在,解密大脑的重要意义更加凸显,可以启发新的人工智能构架和算法的研发。
起初,他们从视觉和行为入手,试图一窥大脑的“算法”。
由杜久林、穆宇、李莹、姚园园、张白冰完成的“视觉信息处理与行为发生的神经机制”项目荣获2020年度上海市自然科学技术奖一等奖。该项目以斑马鱼为脊椎动物模型,研究视觉活动从视网膜到大脑的反应与作用过程,揭示神经调节系统在此过程中的作用机制,并阐明其结构连接组,对理解大脑工作原理有重要推进作用。
现在他们采用新的研究方法和体系,“既见森林,又见树木,甚或树叶”,向全脑的解析出发。
中国科学院脑科学与智能技术卓越创新中心杜久林研究组。
“我们都是带电体”
“人家原来说谈朋友(恋爱)来‘电’,其实很有道理。大脑里所有的信号处理都是以电的方式。本质上所有的信息流都是电信号的信息流。”杜久林说。
他进一步解释,但是外界的很多信号、感觉刺激多数不是电的形式,而是其他物理形式的,比如光的、机械力的、化学分子的。神经系统进化出一些细胞,能够把各种不同的物理能量转变成电信号。而大脑就是一个处理“电”的复杂系统,然后,用电信号来最终支配肌肉细胞的收缩和舒张,支配人的行为、心理、生理活动等。“所以,本质上来讲,我们都是一个带电体,用电信号打交道。”
人是如何看到物体的?
这个过程有点复杂。
神经元是信息传递的“高速公路”或“电缆”。在大脑里,信息传递的过程一路火花带闪电,还有化学物质的产生和消耗,如五羟色胺、乙酰胆碱等;甚至“信息”是有形状的——不同的信息,会带来不同脑区的空间位置上不同神经元的电发放。
一束光经过物体表面,进入人的眼睛,落到视网膜上。在这里,物理信号被转化为神经信号,比如电火花。这些电信号被传入大脑的视觉中枢,描摹出物体的轮廓、形状、颜色、速度等。
1967年诺贝尔生理学或医学奖被授予了三位科学家——Ragnar Granit、Haldan Keffer Hartline 和 George Wald,以表彰他们对眼睛主要生理和化学视觉过程的发现。
其中,哈佛大学的生物学教授George Wald揭示了视网膜的化学组成,特别是视紫红质(rhodopsin)在光线下的变化。
1981年诺贝尔生理学或医学奖被授予David H. Hubel 和 Torsten N. Wiesel。他们观察不同形状和亮度的物体如何激活猫大脑皮层中的特定神经元,揭示了大脑视觉皮层是如何分级处理视觉信息的。
虽然在一瞬间我们就完成了“看见”这个过程,但至今人们还不清楚对颜色或色温的感知是如何实现的。更复杂的是,光子本身并没有颜色。不同颜色的光的差异仅仅在于波长。正如不同气味的化学分子本身并没有气味,但大脑赋予了它们万千不同。
0.1立方毫米的“宇宙”:从视觉和行为机制入手和解析
“一个成年人的大脑里面有接近1,000亿(1011)个神经元,它们形成的连接总数大约有百万亿个(1014),而且是有序的连接。银河系里面恒星的数量级也是千亿级别,这是外部宇宙。大脑其实是我们的内部宇宙。”杜久林说。
面对如此复杂的一个“内部宇宙”,我们如何解密其功能和工作原理?
他表示,视觉其实是研究大脑的一个窗口。
五、六万条体长仅3-5厘米的小鱼,组成了国内最大的斑马鱼研究平台之一,由杜久林课题组管理。这里也是全脑介观神经联接图谱研究平台(斑马鱼)。
斑马鱼早期的胚胎是透明的,成鱼全身布满多条深蓝色条纹,像是斑马一样,其基因和人类的相似度达到87%。它被称为“水中小白鼠”,作为模式动物,在揭开生命科学诸多奥秘的历程中为人类提供助攻。
杜久林表示,人类接收到的信息80%左右来自视觉。在神经科学领域,视觉研究一直占据着重要地位。“研究斑马鱼让我意识到,不能小瞧0.1立方毫米的迷你大脑,它可以撬动整个脑科学的发展历程。”
动物对不同感觉刺激的反应是生存的关键。以往的研究多集中在“感觉系统”的信息处理上,例如视觉通路如何加工形状、颜色、运动等信息。但感觉系统将信息处理后传入大脑,视觉刺激的行为意义如何被大脑处理,以及大脑如何根据这些意义调控行为尚不清楚。
为了揭开这一谜团,杜久林团队利用斑马鱼作为研究对象,采用了一系列先进的神经生物学研究技术,包括在体电生理记录、光遗传学激活和钙成像等技术。
作为视觉系统的第一站,长期以来,视网膜信号处理被认为是相对稳定,而没有可塑性。但杜久林研究组发现,视网膜突触传递具有神经活动依赖的长时程可塑性,从而动态调节视觉信号的处理,修正了传统的观点。
此外,杜久林研究组发现,大脑中免疫细胞-小胶质细胞会对视觉中枢神经元的视觉信号进行稳态调节。这一发现揭示了一种新的视觉信号的调控方式,被国际学术期刊《神经元》(Neuron)期刊评为领域近年最具有影响力的工作,被认为是揭开小胶质细胞生理功能的开创性工作。
亮或暗偏好是动物的本能行为。杜久林研究组发现,大脑左侧缰核通过接受双侧丘脑输入,在亮偏好行为中起枢纽作用,揭示了脊椎动物介导亮偏好行为的神经环路机制。
此外,大脑缰核与人类的情绪有关。杜久林表示,目前已有临床研究人员根据相关研究,开发利用特殊光照射方法对抑郁患者进行干预或治疗的方案。
斑马鱼对具有危险性的视觉刺激产生逃跑行为。他们研究发现,对这一行为的控制发生在从视觉信息传递到逃跑命令神经元的阶段。
研究进一步揭示,当斑马鱼接收非危险性视觉刺激时,多巴胺能神经元及其正向调控的抑制性神经元电活动增加,阻断了视觉信息的传递,使得斑马鱼不会因非危险刺激而逃跑。当斑马鱼接收到危险性视觉刺激时,这两种神经元的活动受到抑制,解除了视觉信息传递的抑制,斑马鱼产生逃跑反应。
多巴胺能神经元和后脑甘氨酸能抑制性神经元组成的功能模块,相当于“交通指挥员”,帮助动物在复杂的环境中做出正确的行为选择——是逃跑,还是留下来。这表明神经调质系统可以被感觉刺激调制,从而帮助动物产生相应的行为反应。
该研究增进了人们对感觉-运动信息转换控制神经机制的理解,以及对神经调质系统在行为选择中作用的认识。
视觉会影响听觉?在大脑中,视觉信号与其它感觉信号的跨膜态互作是动物感知复杂环境的基础。杜久林研究组发现,视觉信号通过激活下丘脑多巴胺神经元,调节听觉通路的信号编码和听觉行为的发生,阐明了视觉跨模态调节听觉功能的神经环路机制。
“既见森林,又见树木,甚或树叶”:从局部脑区迈向全脑解析
杜久林十分注重科学研究中的思想体系和技术体系的构建与发展,“要有思想地工作。每日投身工作之际,都需要保持深度思考;要在研究中逐步形成自己的研究体系,包括思想体系和实验体系”。
2006年1月1日,从美国留学归来的杜久林决定要建一个自己的研究体系。“既见森林,又见树木(神经元),甚或树叶”,是他的体系和策略。其中,“森林”是指全脑,“树木”是指神经元,树叶是指“突触”。
而他认为最重要是一个视角,或思维方式是,需要站在漫长的生物演化的未来时间节点上,以上帝视角,回头看看,重新审视、评估、考量自己正在进行研究和正在回答的问题,然后前行。
“现在神经科学的发展,客观上来讲,还处于对局部脑区有限维度的了解。某个脑区怎么样产生某个行为的,哪些神经元产生哪种行为。”“相当于春秋战国阶段一城一池的较量。”“做斑马鱼,并不是为了做斑马鱼。”杜久林说。
他希望通过对斑马鱼的研究,来了解神经系统的架构、功能和底层“游戏规则”,即算法。
人类大脑有接近1000亿个神经元,而斑马鱼大脑只有大约10万个神经元。而二者都是脊椎动物。
杜久林表示,在基因-信号通路-神经元形态与功能-神经环路等多个层次上,脊椎动物的大脑结构与功能具有高度的保守性。脑科学研究处于关键的历史拐点,正从聚焦于研究局部脑区推进到在全脑尺度上探索神经系统结构的设计原理和神经信息的处理机制。在实验观察方法和数据分析手段上,从宏观(脑区分辨率)、介观(细胞分辨率)、抑或微观(突触分辨率)层面上,斑马鱼是目前唯一一个可以从全脑尺度上解读脑工作原理的模式脊椎动物。
荧光标记的斑马鱼大脑。荧光标记的斑马鱼大脑。(绿色:神经细胞;红色/黄色:血管。)
一个透明或半透明的斑马鱼的大脑,经过处理,被切成薄如蝉翼甚至更薄的薄片。然后在电子显微镜下拍照,读取神经元的连接情况,绘图,并进行人工校对。
这将是第一个脊椎动物的全脑微观神经联接图谱。杜久林表示,谷歌等国际科技巨头也在抢时间,争夺这个“第一”。
因为是透明的,斑马鱼的全脑研究具有独特的优势。“对于很多动物不透明的大脑,目前的技术能够记录到神经元的范围是有限的。但斑马鱼不一样,在显微镜下面,它大脑里面所有的细胞一览无余。甚至10万个神经元,我们全部能看到。”他说。
仅用于呈现斑马鱼0.1立方毫米的大脑的图像数据,就有约250TB(太比特)。而这还只是一个静态的大脑构造的数据。
意识到斑马鱼的全脑研究优势时,很多技术还没有发展起来。他带领课题组成员一起闯难关,开发各种多学科交叉技术。
“我们刚刚开始做斑马鱼的时候,国际上大概只有十来个实验室做斑马鱼的神经系统功能研究。我们一边做科学研究,一边发展新的技术,然后推进自己科研,同时这个领域也会受益。”杜久林说。
如果知道一个发动机或发电机内线圈的缠绕方式,我们可以制作一台同样的装置吗?可以知道它的运行法则、规律,甚至“想法”吗?除非去尝试,否则没有人知道答案。
“有了这个数据以后,我们可以完全地还原一个复杂系统,一个能耗非常低、被优化了数亿年的智能系统——斑马鱼的大脑,然后用复杂系统的科学理论方法来分析其结构上的特点,研究其信息的编码、交流机制。”杜久林说,“实际上,我们看到10万个神经元的活动,是相当于鱼的世界都在里面。鱼的思想、所有肢体的运动,甚至内脏器官的运动,都蕴含在其中。”
神经科学研究领域面临的一个关键难题是大数据的实时处理。他解释说,一个米粒都要比斑马鱼大脑大很多倍。通过光学成像,斑马鱼大脑中获得的全脑神经活动的数据流量每一秒钟达到500GB数量级,需要快速地处理完,再反馈到控制器上。分析的目标是,信息在这个复杂系统里是怎么流动的?哪些细胞产生或调控它?电信号是从哪个脑区的哪个细胞接收来的,又送到哪个脑区的哪个细胞,最终作出了什么样的加工,控制了什么运动等?
“目前的神经科学研究主要是分析网络的节点活动,复杂系统则偏重分析网络中的信息流。复杂系统产生的数据,可以反映和提取该系统的特征。以后各个学科的发展普遍会涉及大数据的处理。不同学科、不同体系,都是一个具象化的复杂系统,是大数据产生及其应用的不同场景,或者讲大数据是其共同的一个抽象层面。” 杜久林说。
杜久林透露,“我们近期突破了一个技术难关——全脑神经细胞活动的大数据实时处理,并基于此技术,实现了大数据流的光学脑机接口;结合人工神经网络等技术,实现了大脑神经网络和人工神经网络的交互,从而将目前神经科学家普遍使用的开环实验范式升级到实时闭环研究新范式,这将会推动人工智能在神经科学研究中的应用(即AI4Neuroscience),同时也会促进神经科学研究对人工智能发展的作用(即Neuroscience4AI)。”