香蕉视频无限次数在线观看视频-日本萝莉 工业大模子行业落地三个酷爱酷爱不雅点:兼看视频贯通多模态发扬综述
你的位置:香蕉视频无限次数在线观看视频 > yeyelu > 日本萝莉 工业大模子行业落地三个酷爱酷爱不雅点:兼看视频贯通多模态发扬综述
日本萝莉 工业大模子行业落地三个酷爱酷爱不雅点:兼看视频贯通多模态发扬综述
发布日期:2024-11-08 11:34     点击次数:87

日本萝莉 工业大模子行业落地三个酷爱酷爱不雅点:兼看视频贯通多模态发扬综述

著作转自公众号老刘说NLP日本萝莉

先看一个酷爱酷爱的话题。特定大模子的输出是有一个「信息量」的上限的,即使输出的token可以很长,关联词其包含的信息量并莫得本色互异,只不外是车轱辘话来去说辩认,好像即是一些无关痛痒的话来填充,信息密度履行上是下跌的。

这是一个很酷爱酷爱的额问题,咱们可以从PPL、词汇丰富度、主题数来看,也有社区一又友说,可以适用信息熵来作念,但这个其实是用来料想不细则性的,是以全球何如看这个事情呢?

今天,咱们来望望几个问题。一个是工业大模子行业落地的三个不雅点,讲的还可以。

另一个对于视频贯通多模态发扬综述,对于贯通多模态视频这块的时候、结束范式和数据有匡助。

一、对于工业大模子行业落地的三个不雅点

最近看到一个很可以的工业大模子行业报告,2024年中国工业大模子行业发展计议报告:https://www.idigital.com.cn/report/4385?chk=1&type=0,其中有个三个不雅点,回来的比拟好,供全球一谈参考。

不雅点1:大模子落地工业诈骗的几种念念路

纯正prompt辅导词法、RAG(检索增强)、主动发问与函数调用、微调四种念念路,其中RAG和微调为现在工业范畴较为常见的诈骗念念路

不雅点2:大模子落地工业诈骗广大见的几种架构日本萝莉

对于大模子落地工业诈骗时期,常见的可以分为以下几种架构:

路由分发架构样式、大模子代理架构样式、基于缓存的微调架构样式、面向看法的Agent架构样式、智能体组合架构样式架构,每个具体法式和优污点如下:

不雅点3:对于大模子和小模子的辞别

在进行工业诈骗时,大小模子各有长处,其材干王人不能冷落,刻下也不存在谁替代谁的情况。

大模子落地工业诈骗时,主要依托于无边的生成材干和针对复杂信息的捕捉与构建材干,因此在学问问答、文本/图片生成等以创造见长的场景诈骗比拟多。

而小模子则凭借高性价比、预计遵守相瞄准确等上风,在工业质检、配置钦慕等场景高度进修。

二、对于视频贯通多模态发扬综述

最近的责任《From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding》(https://arxiv.org/abs/2409.18938),这个责任综述长视频理受命务,重心分析其独到挑战并回来模子与考试时候发扬,咱们可以望望。

可以望望几个中枢的点:

1、视频贯通大模子的演化

2、图像-、短视频-和长视频-多模态大型言语模子(MM-LLMs)之间的比拟

3、图像、短视频和长视频的视觉贯通经由

4、图像、短视频和长视频的视觉贯通的多模态模子

5、主流考试范式和代表模子对比

"PT" 和 "IT" 划分代表模子考试过程中的预考试和指示调整两个阶段。字母 "Y"(是)和 "N"(否)暗示在这些阶段是否使用了图像、短视频和长视频言语数据集。"E2E" 代表端到端的考试经由。

青柠视频在线观看BD

6、Long video长视频的预考试阶段和微调阶段的数据样本

参考文件

1、https://www.idigital.com.cn/report/4385?chk=1&type=0

2、https://arxiv.org/abs/2409.18938日本萝莉



相关资讯