CSDN技术社区
在 4 月 18 日下午,走在多模态研究前沿的阶跃星辰 Tech Fellow,多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成基础模型进展、挑战和未来》的主题分享,分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领...
网易
这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月开源两个重要的视频生成模型—30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V,在 AI 视频生成领域引起了广泛关注。段楠清醒地指...
CSDN博客
段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域,是中国科学技术大学和西安交通大学 ...
aitop100.cn
阶跃星辰以技术为矛、生态为盾,正重塑AI产业的未来格局。从开源大模型到垂直场景的深度落地,这家年轻的公司用“阶跃式”创新证明:AGI并非遥不可及,而是一场始于当下的革命。 (本文综合公开信息整理,部分内容引用自...
腾讯
就在不久前,微软资深首席研究员 段楠 也被曝光离开MSRA,加入阶跃星辰。更多有志之士的加入,不知能否让大模型六小强的你争我赶更加白热化?最新消息,OpenAI从昨日晚间起陆续给不少开...
东方财富网
新华财经上海4月30日电(记者高少华)人工智能为各行各业带来了前所未有的发展机遇。作为上海基础大模型代表企业,阶跃星辰创始人、首席执行官姜大昕近日表示,阶跃星辰将加速基础模型核心技术突破,积极发挥在多
知乎
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
国内创业头部公司的“大模型五虎”格局,正在发生变化。
一家低调后发但又快速突进的公司,正在以更大势能来到台前。
阶跃星辰 ,总部位于上海的A
新浪财经
和Inflection AI 强大的团队背景相似,阶跃星辰的创始团队在创业前,也曾在微软“叱咤风云”。2007年,阶跃星辰创始人姜大昕便...
飞书
根据相关线索和推论、段楠博士已与不久前加入了阶跃星辰,并担任视频生成模型负责人。今年同样从外企巨头跳槽的视频生成知名研究员,还有前Google VideoPoet 项目研究组长蒋 ...
知乎
个人简介: 段楠博士,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。 此前,他曾任微软亚洲研究院资深首席研究员、自然语言计 ...
太平洋电脑网
可以说,阶跃星辰三位核心骨干的经历十分相似,就是第一阶段(博士期间)进行相关研究,第二阶段进入大厂在一线打拼,一直都在和AI的最新进展亲密贴贴。
腾讯
段楠,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。 此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理 ...
CSDN博客
视频生成基础模型进展、挑战和未来. 段楠 阶跃星辰Tech Fellow. 生数科技在多模态大模型的探索与实践. 鲍凡 生数科技CTO. 数字人生成模型:前沿与应用.
yxc.cn
大模型论坛学术秘书,复旦大学邱锡鹏教授对大模型深度推理的发展进行介绍,他认为 · 从弱人工智能已发展成以大模型为代表的通用人工智能,大语言模型的关键是 ...
网易
在中国AI圈的"六小龙"中,阶跃星辰或许是最特别的一个:它是唯一一家总部位于上海的公司,也是最为低调的一家。这家成立于2023年4月的AI公司,在2024年的AI ...
百度百科
段楠,博士,微软亚洲研究院高级研究员/研究经理,天津大学兼职教授,微软亚洲研究院-中国科学技术大学/中山大学/北京航空航天大学联合培养博士生导师。
搜狐网
微软亚洲研究院自然语言计算组资深首席研究员段楠表示。他的主要研究方向为多语言多模态预训练基础模型、多模态生成式人工智能、代码智能和机器推理等。多年来,他带领团队与微软内部多个产品部门进行长期深入的产研结合合作,所开发技术成功转化到必应搜索/广告/新闻、微软小娜、Visual Studio/VSCode、Azure 云服务等产品,为全球用户提供多样化 AI 服务。段楠实现的主要成果包括...
网易
系列模型的关键技术解读,模态,段楠,大模型,机器学习,step,阶跃星辰,fellow4 月 18-19 日,由 CSDN&Boolan; 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,本次大会共设 12 大技术专题,云集院士、IEEE Fellow、顶尖学者、一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角,解读智能体、联邦学习...
河北经贸大学信息技术学院
段楠教授在生成式大模型构建方面拥有丰富的研究经验和卓越的学术成就。段教授分别从大语言模型、多模态大语言模型、多模态生成式AI和AI智能体四个方面介绍 ...
网易
段楠 :大家好,我叫段楠。现在在阶跃星辰工作,主要负责视频生成相关的项目。在此之前,我在微软亚洲研究院从事了十多年的自然语言处理研究。今天非常荣幸能以这种直播的形式和大家交流,这对我来说是第一次。CSDN:这是您第一次参加直播吗?段楠: ...
中国科学技术大学
2021年12月14日,微软亚洲研究院高级研究员段楠受邀来我校作题为“语义驱动视觉内容创造”的讲座,感兴趣的师生在西区3B201教室听取了此次报告。本次报告会由陈雪锦副教授主持。多模态预训练技术是近年来计算机领域的研究热点,讲座中...
智源社区
【智源AI日报】每天速读5分钟,AI要事不错过!欢迎点击 这里,关注并订阅智源AI日报。前沿|微软亚洲研究院段楠:多模态自然语言处理最新进展 经验|吴恩达撰文:人工智能领域求职的小tips 盘点|中国信通院发布“2022人工智能十大关键词” 解读|缓解卷积计算压力的即插即用方法:减少45%计算量 周刊|智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;哥德尔奖得主Cynthia Dwork谈算法公平性;KDD2022各奖项出炉 观点|哥德尔奖得主Cynthia...
CCF数字图书馆
段楠段楠博士,微软亚洲研究院自然语言计算组高级研究员,从事自然语言处理方面的基础研究微软亚洲研究院高级研究员自然语言处理方面的基础
infoq.cn
段楠博士现任阶跃星辰 Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理(2012 年至 2024 年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。他在本次会议的详细演讲内容如下: 演讲提纲 1.视频生成背景...
microsoft.com
他与微软亚洲研究院主管研究员段楠的合作工作与神经网络的可解释性相关,三个月的访问后,他们不仅从理论层面证明了预训练模型中层数和维数与不同NLP 任务 ...
中国科学技术大学
多模态预训练技术是近年来计算机领域的研究热点,讲座中,段楠研究员首先介绍了仅针对文本或视觉的单模态预训练方法,例如文本中的BERT、GPT3、SimCSE等;除了 ...
知乎
微软亚洲研究院“铸星计划”旨在发掘和助力新一代青年学者,使其成为科研创新能力突出、走在世界科技前沿的学术带头人。无论是与领域内顶尖研究员合作的 ...
microsoft.com
在研究方面,来自微软亚洲研究院的多篇研究论文获得权威赞誉。其中,CLaMP (opens in new tab)论文荣获ISMIR 2023大会“最佳学生论文奖 (opens in new ...
CSDN博客
此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理(2012年至2024年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职 ...
南京航空航天大学计算机科学与技术学院
计算机学院数据管理与知识工程研究所党支部和江苏瑞中数据股份有限公司第一党支部举行支部共建签约仪式. 11月29日,计算机科学与技术学院/人工智能学院 ...
知乎
... 背景下的未来发展方向。 段楠微软亚洲研究院高级研究员. 段楠博士,微软亚洲研究院自然语言计算组高级研究员,天津大学兼职教授,主要从事自然语言处理 ...
网易
在加入 阶跃星辰 之前,段楠博士曾在微软亚洲研究院担任资深首席研究员及自然语言计算团队研究经理长达十二年,对自然语言处理和多模态技术的发展做出了卓越贡献。Step-Video-T2V&Step-Audio:开源多模态模型的巅峰之作 据相关技术报告评测,阶跃星辰开源的两款具有突破性的 Step-Video-T2V ...
网易
这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月开源两个重要的视频生成模型 —— 30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V ,在 AI 视频生成领域引起了广泛关注。段楠...
今日头条
近日,阶跃星辰宣布开源了两款 Step 系列多模态模型—Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。据透露,阶跃星辰还将在 3 月开源公司自研的图生视频模型。在 QCon 北京站上,阶跃星辰 Tech Fellow 段楠将重点介绍 Step-Video,带来《Step...
CSDN博客
阶跃星辰推出了两款具有突破性的开源模型。Step-Video-T2V 是全球领先的视频生成模型,参数量高达300 亿,可生成长达8-10 秒的540P 高 ...
CSDN技术社区
该模型的主要贡献如下: Step-Video-T2 V是一种使用流匹配训练的基于扩散Transformer(DiT)的模型。专门设计的深度压缩变分自动编码器(VAE)可实现16 x16的空间压缩比和8x的时间压缩比,显著降低了大规模视频生成训练的计算复杂度。两个双语文本编码器使Step-Video-T2 V能够直接理解中文或英文提示。引入级联训练管道,包括文本到图像预训练,文本到视频...
东方财富网
上证报中国证券网讯(记者宋薇萍谭镕)2月19日,大模型创业公司阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。
阶跃星辰表
知乎
划时代开源!阶跃星辰联合吉利发布全球最强视频生成模型
2025年2月18日,中国AI领域迎来里程碑事件——上海阶跃星辰智能科技有限公司(简称“阶跃星辰”)与吉利汽车集团联合宣布,将全球参数量最大、性
CSDN技术社区
2025 年初,阶跃星辰(Stepverse)携手吉利汽车集团,开源了两款重要的多模态 AI 项目—Step-Video-T2V(文本到视频生成模型)与 Step-Audio(语音合成与交互模型)。这两款 AI 模型的发布,标志着国内 AI 技术在多模态内容生成(AIGC,AI-Generated Content)领域迈向新的高度。本篇文章将深入解析这两个项目的背景、技术架构、应用场景、性能优势以及未来发展方向,帮助开...
搜狐网
阶跃星辰在这方面取得了一系列突破性的成就,尤其是在视频生成及语音交互领域。它们推出的Step-Video-T2V模型,据称是目前全球参数量最大且性能最佳的开源视频生成模型之一;而另一款产品级开源语音交互大模型,则为企业提供了强大...
CSDN博客
在本技术报告中,作者介绍了Step-Video-T2 V,这是一种最先进的视频基础模型,具有30 B参数,能够理解中文和英文提示,生成高质量的视频(544 x992分辨率), ...
知乎
在今年2 月,阶跃星辰开源了两款Step 系列多模态大模型——Step-Video-T2V 视频生成模型和Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。 近日,阶 ...
上海证券报
在生成效果上,Step-Video-T2V在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令 ...
知乎
与这些开源模型相比,Step-Video-T2V的关键贡献包括:它是迄今为止最大的开源模型,利用高效的视频压缩VAE,支持英汉双语文本提示,实施基于视频的DPO方法以进一步减少伪影并 ...
飞书
根据相关线索和推论、段楠博士已与不久前加入了阶跃星辰,并担任视频生成模型负责人。今年同样从外企巨头跳槽的视频生成知名研究员,还有前Google VideoPoet 项目研究组长蒋 ...
腾讯云
该模型能够直接生成204帧、分辨率为540P的高质量视频,这一技术成就无疑为视频生成领域树立了新的标杆。据阶跃星辰透露,经过严格的测评,Step-Video-T2V ...
上观
近日,阶跃星辰联合吉利汽车集团开源了全球参数量最大、性能最好的开源视频生成模型Step-Video-T2V,以及行业内首款产品级开源语音交互大模型Step-Audio。
网易
截止目前,他已发表学术论文 100 余篇,Google Scholar 被引用次数超过 10000 次,持有专利 20 余项。凭借构建多语言多模态预训练基础模型,探索基于基础模型的复杂任务推理和任务完成机制,推动通用型人工智能技术的发展,段楠成为 DeepTech 2022 年“中国智能计算科技创新人物”入选者之一。图丨DeepTech 2022年“中国智能计算科技创新人物”入选者段楠
网易
截止目前,他已发表学术论文 100 余篇,Google Scholar 被引用次数超过 10000 次,持有专利 20 余项。凭借构建多语言多模态预训练基础模型,探索基于基础模型的复杂任务推理和任务完成机制,推动通用型人工智能技术的发展,段楠成为 DeepTech 2022 年“中国智能计算科技创新人物”入选者之一。图丨DeepTech 2022年“中国智能计算科技创新人物”入选者段楠
网易
截止目前,他已发表学术论文 100 余篇,Google Scholar 被引用次数超过 10000 次,持有专利 20 余项。凭借构建多语言多模态预训练基础模型,探索基于基础模型的复杂任务推理和任务完成机制,推动通用型人工智能技术的发展,段楠成为 DeepTech 2022 年“中国智能计算科技创新人物”入选者之一。图丨DeepTech 2022年“中国智能计算科技创新人物”入选者段楠
aminer.cn
段楠,Senior Principal Researcher,Microsoft. 个人简介 主要从事自然语言处理、多模态智能、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2...
中国计算机学会
嘉宾简介:段楠,博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态智能、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项,个人主页:https://nanduan.github.io/。报告题目:跨模态...
腾讯云
本文共一作殷晟明、吴晨飞,通讯作者段楠。论文地址:https://arxiv.org/abs/2308.08089以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置...
腾讯
近日,微软亚洲研究院推出了NUWA-XL超长视频生成模型,采用创新的Diffusion over Diffusion架构,通过「从粗到细」的生成过程,可以并行生成高质量的超长视频,为多模态大模型提供了新的解题思路。论文地址:https://arxiv.org/abs/2303.12346 NUWA-XL「从粗到细」的生成方法具有三个优势: 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。模型包含多个局部扩散模型...
mittrchina.com
截止目前,他已发表学术论文100 余篇,Google Scholar 被引用次数超过10000 次,持有专利20 余项。 ... 段楠表示,在感知层构建多语言、多模态、多领域统一预 ...
智源社区
主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP ... Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会 ...
microsoft.com
变得更友好和负责任; 段楠构建了多语言多模态预训练基础模型,. 积极探索基于基础模型的复杂任务推理和任务完成机制,推动了. 通用人工智能技术的发展。 再次祝贺各位 ...
microsoft.com
微软亚洲研究院自然语言计算组资深首席研究员段楠说。 他的主要研究方向为多语言多模态预训练基础模型、多模态. 生成式人工智能、代码智能和机器推理等。 多年来,他 ...
知乎
构建多语言多模态预训练基础模型,探索基于基础模型的复杂任务推理和任务完成机制,推动通用人工智能技术的发展。 段楠目前在微软亚洲研究院自然语言 ...
microsoft.com
近期,微软亚洲研究院NUWA 多模态生成模型家族迎来了新成员——NUWA-XL,其以创新的Diffusion over Diffusion 架构,首次实现了高质量超长视频的并行生成,为多 ...
scholat.com
微软亚洲研究院研究员段楠说,“NUWA-Infinity从底层形成了一套全局自回归的生成机制,不仅可以对图片进行延展式的生成,也可以应用于视频预测创作,而这也是我们接下来要攻克的研究课题。”通过全局自回归建模视觉块之间的依赖关系...
msra.cn
微软亚洲研究院首席研究员段楠表示。当前,长视频生成的多数方法是采用“Autoregressive over X”架构,“X”表示任何能够生成短视频片段的生成模型,包括 Phenaki、TATS、NUWA-Infinity 使用的自回归模型(Autoregressive Models),或者 MCVD、FDM、LVDM 使用的扩散模型(Diffusion Models)。这些方法的主要思想是在短视频片段上训练模型,再通过推理,像滑动窗口一样自回归的自左向右...
今日头条
AI绘画大赛#,请pick具有无限视觉生成能力的NUWA-Infinity!由微软亚洲研究院提出的NUWA是可以同时支持图像、视频的跨模态生成模型,不仅能够根据文字生成图片,更支持文本生成视频、图像补全、视频预测等多种任务。在学习原版《清明上河图》后,NUWA补出了画框外的画面。画中人物细节也就亿点点,笔触色调也复刻得毫无二致。点击链接直达项目官网:网页链接,一起来感受 AI 的无限流创作力吧!
搜狐网
为此,微软亚洲亚洲研究院 NUWA 团队研发出了无限视觉生成模型 NUWA-Infinity。与同样覆盖图像和视频创作的 NUWA 相比,NUWA-Infinity 在分辨率和可变大小视觉艺术作品生成方面具有更优的性能,并支持五个高分辨率视觉任务的生成,包括无条件图像生成高分辨率图、文本生成高分辨率图像、文本生成高分辨率视频、图像生成高分辨率动画和图像生成高分辨率图像。在 NUWA-...
今日头条
为此,微软亚洲亚洲研究院 NUWA 团队研发出了无限视觉生成模型 NUWA-Infinity。与同样覆盖图像和视频创作的 NUWA 相比,NUWA-Infinity 在分辨率和可变大小视觉艺术作品生成方面具有更优的性能,并支持五个高分辨率视觉...
xbkan.cc
性别: 职业: 演员段楠简介影人资料段楠合作伙伴旺卓措、刘承宙 2.5荒野加油站旺卓措、刘承宙
1905电影网
段楠电影全集,段楠生平介绍,段楠写真图片,段楠获得奖项。1905电影网_1905.com...
豆瓣电影
登录/注册 下载豆瓣客户端 豆瓣 6.0 全新发布× 豆瓣 扫码直接下载 iPhone·Android 豆瓣 读书 电影 音乐 同城 小组 阅读 FM 时间 豆品 豆瓣社区 搜索你感兴趣的内容和人. 浏览发现 话题广场 段楠 Nan Duan 去修改 增改资料和作品 关注 0 人关注 推荐 人物简介· 暂无 图片·(全部 0 张·上传照片) 最近的5部作品· 2017 荒野加油站 2.7 更多影视作品 1 收藏人数最多的5部作品· 荒野加油站 2.7 2017 更多影视作品 1 段...
mittrchina.com
动图丨NUWA-Infinity 基于静态图像生成的视频(来源:微软亚洲研究院). NUWA-XL 是针对超长视频生成的核心问题提出的解决方案。该算法可以在保障关键 ...
机器之心
研究方向涵盖了大模型预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP, NUWA-Infinity, NUWA-3D, ...
microsoft.com
微软亚洲研究院自然语言计算组资深首席研究员段楠说。 他的主要研究方向为多语言 ... 最近,段楠与团队提出了新型视频生成模型DragNUWA,. 从可控性角度提出视频 ...
GitHub Pages
段楠博士,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型(阶跃视频,文生视频, 图生视频)。此前,他曾任微软亚洲研究院资深首席研究员 ...
智源社区
来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。 论文地址:https://arxiv.org/abs/2308.08089.
腾讯云
来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。 论文地址:https://arxiv.org/abs/2308.08089. DragNUWA针对现有研究中 ...
CSDN博客
近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高 ...
百度百科
段楠,博士,微软亚洲研究院高级研究员/研究经理,天津大学兼职教授,微软亚洲研究院-中国科学技术大学/中山大学/北京航空航天大学联合培养博士生导师。
中文名段楠国 籍中国
## 人物经历
微软亚洲
网易
段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。他主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。在 4 月 18-19 日举行的 2025 全球机器学习技术大会(ML-Summit)上,段楠就“视频生成基础模型的进展、挑战与未来”发表了主题演讲,并在会后接受了 CSDN 的深度直播专访。段楠预测道,具备更深层次理解能力的视觉领域基础模型(可能带来视觉...
新浪新闻
段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域,是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。在加入阶跃星辰之前,段楠博士曾在微软亚洲...
西安交通大学-人工智能学院
此次会议,我们邀请了科大讯飞副总裁、研究院院长刘聪博士和微软亚洲研究院资深首席研究员段楠博士,为我们带来大模型研究方面的学术报告。以下是报告详细信息,欢迎广大师生参加!时间:2024年1月21日,10:20-12:00 地点:西安交通大学兴庆校区科学馆101 刘聪:大模型时代的人工智能技术进展和产业应 嘉宾简介:刘聪,科大讯飞副总裁、研究院院长,语音及语言信息处理国家工程研究中心副主任,中国科学技术大学兼职
中国计算机学会
CCF专业会员、微软亚洲研究院段楠博士受邀为西安交通大学的师生带来关于“人工智能”的专题报告。CCF西安分部秘书长、西安交通...
中国计算机学会
微软亚洲研究院的段楠博士为同学们带来了一场精彩的报告。本次活动由南航计算机科学与技术学院赵彦超老师主持,共有本科生、研究...
澎湃新闻
中科大教授、博士生导师王永15岁参加了1978年的秋季高考,考取安徽省长丰县第一名。“我对少年班非常向往,为此又专门报考。王永1982年提前一年毕业于中科大无线电电子学系自动控制专业,获工学学士学位,后获得南京航天航空大学工学硕士和工学博士学位。目前他是中国自动化学会“分数阶系统与控制”专业委员会主任、中国自动化学会教育工作委员会委员。和王永同班的,还有曾任百度总裁的张亚勤。入校时1...
百度经验
中山大学的校歌,在广泛征求校内外广大师生员工意见的基础上,组织了有关专家、教授和干部经过认真讨论研究,对原有歌词作如下修...
中国计算机学会
段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。他主要从事自然语言处理和多模态基础模型研究。多次担任NLP/AI学术会议程序主席和 ...
CSDN博客
段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。 他主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。
知乎
基于对研究方向的热爱和实习期间优异的工作表现,段楠成为了微软亚洲研究院-天津大学的首名联合培养博士,以统计机器翻译为主要研究方向。彼时,与计算机视觉 ...
上海东方财富证券投资咨询有限公司
段楠. 张祥雨. 焦斌星. ○ 天津大学博士、中国科学技术大学、西安交通大学兼职博导,天津大. 学兼职教授. 数据负责人. ○ 西安交通大学与微软亚洲研究院博士 ...
西安交通大学教务处
机械工程学院下设机械工程及自动化系、车辆工程系、仪器科学及精密制造系、工业设计系. 和机械基础实验教学中心5 个本科教学单位。机械工程学院本科生招生专业有机械 ...
北京交通大学
历任讲师、副教授、教授;曾任教研室副主任、桥隧系副主任】。 2000.8 - 至今,北京交通大学土木建筑工程学院桥梁工程系(桥梁与防灾工程研究所)从事教学科研工作。 工学博士 ...
中国自动化学会
他的博士毕业. 生张通告诉《中国科学报》:“勇于. 探索,敢为人先,做原创性的工. 作,不惧失败——这是陈老师对. 学生的殷切希望和教诲。” 陈俊龙是欧洲科学院 ...
网易
微软亚洲研究院首席研究员段楠认为,「现在的大模型还停留在文字生成阶段,尽管 GPT-4 在理解端加入了视觉信息,但也仅限于图...
凤凰网
它的名字,叫“NüWA”(女娲)。“女娲女娲,神通广大”,正如其名,一句话生成视频只是这个模型的 技能之一。除此之外,一句话生成图片,草图生成图像、视频,图像补全,视频预测,图像编辑、视频编辑— 一共 八种 视觉任务,它其实 全部都能搞定。完全是一位不折不扣的“全能型选手”。它,就是由 微软亚研院和北大 联合打造的一个 多模态预训练模型,在首届微软...
cnblogs.com
此前,微软亚洲研究院提出了多模态模型NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA的升级版—无限视觉生成模型NUWA-Infinity,让视觉艺...
scholat.com
微软亚洲研究院研究员段楠说,“NUWA-Infinity从底层形成了一套全局自回归的生成机制,不仅可以对图片进行延展式的生成,也可以应用于视频预测创作,而这也是我们接下来要攻克的研究课题。通过全局自回归建模视觉块之间的依赖关系和局部自回归建模视觉词之间的依赖关系,让NUWA-Infinity能够生成全局一致且局部细节
腾讯云
早在多年前,微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究,并于2021年推出了多模态生成模型NUWA。NUWA 可以通过自然语言指令实现文本、 ...
网易
动图丨NUWA-XL 长视频生成流程动态演示(来源:微软亚洲研究院)最近,段楠与团队提出了新型视频生成模型 DragNUWA,从可控性...
腾讯
近日,微软亚洲研究院推出了NUWA-XL超长视频生成模型,采用创新的Diffusion over Diffusion架构,通过「从粗到细」的生成过...
CSDN技术社区
这次,MSRA 和北大联合团队提出的统一多模态预训练模型—NÜWA(女娲),则可以为各种视觉合成任务生成新的或编辑现有的图像和视频数据。论文地址:https://arxiv.org/pdf/2111.12417.pdf GitHub 地址:https://github.com/microsoft/NUWA 为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架,它不仅可以处理作为三维数据的...
智源社区
本文提出NUWA-XL,一个新的扩散+扩散模型(Diffusion over Diffusion architecture)以实现超长视频生成。大多数现有的超长视频生成方法需要将视频进行时序上的线性分割,从而受限于短视频训练、长视频推理的难点,且无法对时序信息进行充分利用。相反,本文采用从粗到细的思路,将视频的在统一粒度上并行生成。为此,一个全局扩散模型被用于在整个时序信息的基础上生辰关键帧,一个局部扩散模型用于逐步修复相邻帧之间的
mittrchina.com
他和团队主导实现了业界首个开放域视觉内容生成预训练模型NUWA(女娲)[1]及其后续版本NUWA-Infinity(任意分辨率图像和视频生成)[2]、NUWA-XL(超长视频生成) ...
microsoft.com
微软亚洲研究院高级研究员段楠表示,“NÜWA 是第一个多模态预训练模型 ... NÜWA 提供的视觉内容生成和编辑技术,为这些应用提供了无限的想象空间。
知乎
本文根据段楠老师在「澜舟NLP分享会」上的演讲整理。 文内梳理了视觉语言预训练近期工作,并分享了微软亚洲研究院在视觉语言预训练模型和视觉合成方面的 ...
机器之心
基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型——DragNUWA。DragNUWA 从语义、空间和时间三个角度 ...
microsoft.com
络绎科学| 微软亚洲研究院开展视觉内容生成研究,助力解决多模态. 生成式AI 核心 ... 最近三年,段楠带领团队开展视觉内容生成研究,从算法的. 层面解决了多模态 ...
腾讯云
本文根据段楠老师在「澜舟NLP分享会」上的演讲整理。文内梳理了视觉语言预训练近期工作,并分享了微软亚洲研究院在视觉语言预训练模型和视觉合成方面的研究 ...
CSDN博客
... 研究,通讯作者则是微软亚研院的高级研究员&研究经理段楠。 对于这项研究本身,有网友调侃:才注册完DALL·E2测试版就看到这个,快跟不上节奏了……
腾讯
论文地址:https://arxiv.org/abs/2303.12346 NUWA-XL「从粗到细」的生成方法具有三个优势: 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。由于视频的长度可以相对于深度 m...
网易
品玩3月28日讯,据 Arxiv 页面显示,微软亚洲研究院的段楠博士团队近日发表论文,介绍了一种名为TaskMatrix.AI 的新型 AI...
scholat.com
微软亚洲研究院研究员段楠说,“NUWA-Infinity从底层形成了一套全局自回归的生成机制,不仅可以对图片进行延展式的生成,也可...
msra.cn
今天我们精选了微软亚洲研究院在此次大会上发表的7篇论文,来为大家进行简要介绍,从强化学习、图神经网络、知识图谱表示学习等关键词带你一览机器学习领域的最新成果!论文链接:https://arxiv.org/abs/2202.07995文章 OSDI 2022|速来围观!微软亚洲研究院计算机系统领域最新论文!2022年7月12日 编者按:OSDI(Operating Systems Design and ...
智源社区
【智源AI日报】每天速读5分钟,AI要事不错过!欢迎点击 这里,关注并订阅智源AI日报。前沿|微软亚洲研究院段楠:多模态自然语言处理最新进展 经验|吴恩达撰文:人工智能领域求职的小tips 盘点|中国信通院发布“2022人工智能十大关键词” 解读|缓解卷积计算压力的即插即用方法:减少45%计算量 周刊|智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;哥德尔奖得主Cynthia Dwork谈算法公平性;KDD2022各奖项出炉 观点|哥德尔奖得主Cynthia...
百度百科
段楠,博士,微软亚洲研究院高级研究员/研究经理,天津大学兼职教授,微软亚洲研究院-中国科学技术大学/中山大学/北京航空航天大学联合培养博士生导师。
microsoft.com
段楠补充说,“表面看NÜWA Infinity 解决了之前NÜWA 生成图片不高清,以及视频帧数有限的问题。但其实NÜWA Infinity 从底层形成了一套生成机制,不仅可以对 ...
mittrchina.com
最近三年,段楠带领团队开展视觉内容生成研究,从算法的层面解决了多模态生成式人工智能中的一些核心问题。 他和团队主导实现了业界首个开放域视觉内容生成 ...
知乎
微软亚洲研究院提出的超长视频生成模型NUWA-XL 可以根据文字自动生成高质量动画作品。让我们先来看一看这段由NUWA-XL 生成的动画片吧!
机器之心
DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。 图片 论文地址:https://arxiv.org/abs/ ...
microsoft.com
输入16句简单描述就能生成一段长达11分钟的动画片? 没错!微软亚洲研究院提出的超长视频生成模型NUWA-XL 可以根据文字自动生成高质量动画作品。让我们 ...
智源社区
作者:段楠,微软亚洲研究院自然语言计算组高级研究经理,中国科学技术 ... 论文已经公开:https://arxiv.org/abs/2206.08657. Bridge-Tower 模型 ...
智源社区
来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。 论文地址:https://arxiv.org/abs/2308.08089.
腾讯云
本文根据段楠老师在「澜舟NLP分享会」上的演讲整理。文内梳理了视觉语言预训练近期工作,并分享了微软亚洲研究院在视觉语言预训练模型和视觉合成方面的研究 ...
网易
段楠与团队带着对语义分析挑战的问题,直接开展了后续一系列代码智能的研究,包括:业界首个代码预训练模型 CodeBERT[6]及其后续版本 GraphCodeBERT[7]和 UniXcoder[8],构建代码智能领域基准测试集 CodeXGLUE[9]等。后续 OpenAI 的 CodeX、ChatGPT 和 GPT-4 更是直接验证了代码预训练对构建 LLM 的重...
CSDN技术社区
以及GraphCodeBERT通过引入数据流图来增强模型对代码内在结构的理解。UniXcoder进一步扩展了这一概念,支持跨模态任务,如理解与生成。这些技术进步使得模型能够更精准地捕捉代码意图.
博客
GraphCodeBERT则是将图神经网络与BERT结合,对代码结构进行建模的模型。它利用图结构来表示代码中的函数调用关系、变量依赖等信息,并通过图变换学习代码实体间的复杂关系。这种模型在分析复杂的代码库和大型软件项目时尤其有用...
知乎
codebert系列是多模态transformer里的一个非常有意思的应用。codebert诞生之初主要致力于自然语言代码搜索和代码文档生成。
我们提出了一种用于编程语言(PL)和自然语言(NL)
CSDN技术社区
CodeBERT 的主要目标是改进代码搜索、代码文档生成等下游任务的性能。项目快速启动 安装依赖 首先,确保你已经安装了 torch 和 transformers 库。你可以通过以下命令进行安装: pip install torch pip install transformers 加载和使用模型 以下是一个简单的示例,展示如何加载和使用 CodeBERT 模型: import torch from transformers impor...
CSDN技术社区
CodeBERT CodeBERT 项目地址:https://gitcode.com/gh_mirrors/co/CodeBERT是微软开源的一个深度学习模型,它旨在理解和生成编程代码,为软件开发带来AI的智能辅助。该项目利用Transformer架构,结合了自然语言...
mittrchina.com
”微软亚洲研究院自然语言计算组资深首席研究员段楠表示。 他的主要研究方向为多语言多模态预训练基础模型、多模态生成式人工智能、代码智能和机器推理等。
microsoft.com
“智能计算有望在未来几年取得更加突破性的进展,在诸多. 领域开创全新的应用场景,并从根本上改变人们的工作和生活。” 微软亚洲研究院自然语言计算组资深首席研究员段楠说。
GitHub Pages
段楠博士,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型(阶跃视频,文生视频, 图生视频)。此前,他曾任微软亚洲研究院资深首席研究员 ...
知乎
段楠目前在微软亚洲研究院自然语言计算团队担任首席研究员,主要从事多语言多模态预训练基础模型、AI 生成内容(AIGC)和机器推理等研究。其带领团队与微软 ...
CSDN博客
CodeBERT,是一种用于编程语言(PL)和自然语言(NL)的bimodal预训练模型。CodeBERT捕获自然语言和编程语言的语义连接,生成能广泛支持NL-PL理解任务(自然语言 ...
阿里云
① CodeBERT 是微软亚洲研究院开发的用于代码表示和生成的预训练模型,具有跨编程语言传输知识的能力,可针对各种下游任务微调,并表现出良好性能。