将AI融入CG特效工作流;对谈Dify创始人张路宇;关于Llama 2的一切资源;普林斯顿LLM高阶课程;LLM当前的10大挑战 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

img

🤖 将AI融入CG特效工作流,体验极致的效率提升

img

BV1pP411r7HY

这是 B站UP主 @特效小哥studio@拓星研究所 联合投稿的一个AI特效短篇「Flower」以及幕后制作花絮。

在前2分钟的特效视频里,一片废土之上,机器人手持一朵紫色的小花,穿越漫长的激流终于来到一片花海,并最终殒身在目的地 (实话说,最后一个镜头还是很震撼的)。

img

在其后5分钟的视频内,UP主们分享了团队如何只在5天内完成本次制作,以及将哪些AI技术融入了影视制作的工作流。

不同于一般的toy project,这是真正的业内视角,探索人和AI如何更好地配合:

  1. 剧本设计。将AI聊天工具引入剧本设计阶段,收集了足够的信息用于片中画面和动作设计

  2. 图形设计。以开头的「骷髅头」场景为例,10帧的镜头一般需要特效工作人员5天的时间,但是新建场景并简单建模后使用 Stable Diffusion 进行单独渲染,只需要1个小时(甚至10分钟),极大提升了工作效率

  3. 动作捕捉。相较于传统的手K (慢)、惯性动补 (不稳定)、光学动补 (贵),AI视频动捕节省了大量时间和成本

  4. 渲染技术。使用了 NVIDIA 的 DLSS3 和 nvidia canvas 等最新技术和软件,加速实时渲染和提升画面质量 ⋙ B站完整视频

img

🤖 快手App开放「快手AI对话」功能内测,基于「快意 」自研大模型

img

8月18日,快手App在安卓版本开放内测「快手AI对话」功能,点击搜索首页右上角AI图标即可进入内测首页,输入问题就可以开启对话。

「快手AI对话」依托于站内社区内容生态,可以帮助用户快速查找短视频、达人、百科等内容,还将为用户提供全网检索服务 ⋙ 查看内测详情

img

快手自研的大语言模型快意 (KwaiYii)」已经开启内测,并为业务团队提供了标准 API 和定制化项目合作方案,包括上述「快手AI对话」产品。

快意 (KwaiYii)」是由快手AI团队从零到一独立自主研发的一系列大语言模型,包含多种参数规模,其中新版本 KwaiYii-13B 在多个 Benchmark 上都处于领先水平,证明了其在自然语言处理任务中的出色性能 ⋙ 快意 GitHub

🤖 Midjourney 正式上线局部重绘功能 Vary (Region)

img

8月22日,Midjourney 正式上线了局部重绘功能,官方称之为 「Vary (Region)」,允许对生成图像的选定区域进行选择,并重新输入 Prompt 进行重新绘制,以下是操作步骤:

  1. 使用 /imagine 命令创建图像

  2. 点击 U 按钮放大选定图像

  3. 点击 Vary (Region) 按钮,打开编辑界面

  4. 选择要重新生成的图像区域

  5. 提交并查看结果 ⋙ Midjourney文档 | 6000字使用指南

img

🤖 首次公开!讯飞星火认知大模型的官方使用报告

img

讯飞官方最近发出了一份完整的「星火使用报告」,完整地展示了星火大模型地用户群体特性,包括性别/年龄/地域分布、行业分布、兴趣爱好、使用场景,以及7000+助手和高频应用行业。

ShowMeAI 日报选取了其中4条,完整版可以查看原文:

  1. 星火大模型的用户大多从事互联网、科研、教育、市场媒体等行业,资深职场经验人士为主,其中有30%以上用户是IT互联网工作者,他们是最擅长利用先进生产力工具的群体之一

  2. 星火用户刚需使用场景TOP榜单:知识问答、内容生成、教育学习、编程辅助、生活常识

  3. 每100次和星火的对话中就有1句是咨询情感问题的,比如在毕业季,2.68% 的用户选择向星火咨询高考经验、志愿填报等问题

  4. 办公场景对于星火大模型的使用需求是最旺盛的,其中排名前10的是:PPT大纲助手、创意商业文案、周报小助理、数学解题助手、市场分析师、短视频脚本助手、产品经理助手、述职小能手、讯飞智聘模拟面试、扩写助手 ⋙ 科大讯飞

img

🤖 大语言模型 (LLM) 当前的10个主要研究方向和挑战

img

这是 @Chip Huyen 的一篇博文,将其与工业界、学术界多人的交谈进行了梳理,并总结了10个大语言模型的主要研究方向,或者说公开挑战:

  1. 减少并评估输出输出 (虚构信息) Reduce and measure hallucinations:开发对比学习等方法减少LLM的生成虚构信息,建立自检模型等工具检测幻觉,评估模型可靠性;还需设计新指标全面测量不同类型的幻觉

  2. 优化上下文长度和上下文构建 Optimize context length and context construction:调研显示大部分问题需依赖上下文解析,所以需要优化上下文长度,提高中间内容的利用效率,并研究 prompt engineering 来更好地构建上下文

  3. 融合其他数据形式 Incorporate other data modalities:多模态数据可显著提升模型的理解和泛化能力,在医疗、零售等领域应用广泛;目前多聚焦模型建设,需加强对多模态交互界面优化的研究

  4. 提升语言模型的速度和成本效益 Make LLMs faster and cheaper:持续探索模型压缩、量化等技术,优化模型在现有硬件上的部署效率,使大模型实用性更强;社区已取得显著进展,但仍有提升空间

  5. 设计新的模型架构 Design a new model architecture:Transformer已优化多年,需要探索新的更高效架构来实现突破,如带内注意力等机制;这需要考虑模型计算复杂度和目标硬件的匹配

  6. 开发替代GPU的解决方案 Develop GPU alternatives:GPU已主导多年,需要开发光子芯片等新硬件来实现性能突破,大公司和创业团队正在这方面大力投入研发

  7. 提升代理 (人工智能) 的可用性 Make agents usable:探索增强代理模型的可靠性,使其能安全执行各种实际任务,目前仍存在很大挑战;增强社会仿真也是一个应用方向

  8. 改进从人类偏好中学习的能力 Improve learning from human preference:现有倾向性学习存在局限,需要在偏好表达、偏好定义、数据采集等方面开展深入研究,以更好地学习人类价值观

  9. 提高聊天界面的效率 Improve the efficiency of the chat interface:聊天界面存在局限,需要探索支持多轮多模态交互、无缝结合工作流等方式,来实现更高效的人机协作

  10. 构建用于非英语语言的语言模型 Build LLMs for non-English languages:面向低资源语言,需要开发适配技术、构建高质量数据集,来训练非英语语言模型;这也关系到语言学习和文化传播 ⋙ 阅读原文 | 中文翻译版

img

🤖 对谈 Dify 创始人张路宇:这个男人帮 5 万个 AI 应用接上了大模型

img

Dify.AI 创始人 & CEO 张路宇受邀在 42 章经播客上与曲凯老师进行了一次深度对话,围绕大型语言模型的能力和应用,让更多人了解大模型投产的现状、潜力和挑战,以及 LLM 中间件的价值。****

只看播客的时间轴就可以感受到,这是一期「相当炸裂」的对谈,从 Dify 话题切入了解两位关于大模型技术、应用和前景的无限畅想。

实际上,ShowMeAI 推荐收听 @42章经 在小宇宙的每!一!期! 播客,并推荐关注 Dify 近期疯狂的各种撒福利活动~

00:34 什么是 LLMops ?

07:07 大模型工程化的三种方式:Prompt、Embedding、Fine Tune

15:48 Agent 的三种形式与面临的三大问题

23:20 Prompt 的潜力被低估了,它的难度也被低估了

31:17 未来大模型的市场格局

33:07 Llama2 离真正投产还有相当长的距离

38:55 天天提 LangChain,到底什么是 LangChain?

48:23 Dify 五万多个应用中,最典型的落地场景是?

51:57 未来个人助手的入口会在哪儿?

53:48 日后的微信通讯录里躺着的可能是一群 bot

55:07 AI 的三大发展方向:请大模型看 4D 电影、模型小型化、一切数据向量化

59:07 对于 AI,我俩最焦虑的事情是同一个

1:02:44 —— 画外音环节 ——

1:04:35 曲凯会格外喜欢什么样的创业者?

1:08:49 曲凯怎么看中间层的创业机会?

1:11:47 现在创业者普遍暴露出来的问题都有什么? ⋙ 小宇宙 @42章经 | 核心话题的文字版

img

🤖 关于 Llama 2 的一切资源,我们都帮你整理好了

img

LLaMA 2 是 Meta 最近开源的一个大语言模型,是 LLaMA 1 的升级版本,可以通过AWS、Hugging Face 获取,并且允许自由地用于研究和商业用于。

这篇博客比较全面地梳理了 LLaMA 2 相关的各类资源 & 链接,是一篇非常不错的入门指南:

  1. Llama 2 是什么:Llama 2 是 Meta 发布的新的开源大型语言模型,提供了7B、13B和70B三种规模的模型,与 LLaMA 1 相比最大程度提高了视野长度

  2. 即刻解锁 Llama2:文章汇总了几个支持测试的 playground,包括HuggingChat、Hugging Face Spaces、Perplexity

  3. Llama 2 背后的研究工作:对于 Llama 2 的研究过程感兴趣的话,作者给出了几项学习资料,包括论文、视频、文章链接

  4. Llama 2 的性能有多好, 基准测试:Llama 2 在推理、编程、知识测验等多个基准测试上优于其他开源语言模型,相关资源包括开源大语言模型排行榜、Meta公告等

  5. 如何为 LLaMA 2 Chat 写提示词 (prompts) :想与 Llama 2 Chat 进行高效地交互则需要你提供合适的提示词,文章给出了单轮、多轮对话的提示词模板

  6. 如何训练 LLaMA 2:文章提供了关于指令微调、PEFT技术微调等相关资源,帮助训练你自己版本的 LLaMA 2

  7. 如何部署 Llama 2:文章给出了各种部署方式的教程,包括本地部署、使用托管服务如 Hugging Face Inference Endpoints 或通过 AWS、Google Cloud、Microsoft Azure 等 ⋙ 阅读原文 @Philipp Schmid | 中文翻译版本 @Hugging Face

🤖 普林斯顿大学 COS 597G (Fall 2022) 课程,带你理解大语言模型

img

COS 597G: Understanding Large Language Models」是普林斯顿大学2022年秋季开设的一门研究生课程,由 Danqi Chen 教授主讲,Alexander Wettig 担任助教。

课程目标是让学生了解大语言模型的相关前沿研究话题,包括技术基础、前沿话题、微调、系统设计、安全性和伦理问题等,需有机器学习和自然语言处理背景。通过课程学习,学生可以掌握大语言模型领域的前沿研究和手段。

注意!课程页面 Schedule 中对每个话题给出了大量的推荐阅读资料,并给出了完整的 Slides!

  1. 导言 (Introduction)

  2. 编码器模型 (BERT)

  3. 编码器-解码器模型 (T5)

  4. 解码器模型 (GPT-3)

  5. 小样本学习提示方法 (Prompting for few-shot learning)

  6. 高效提示调参 (Prompting as parameter-efficient fine-tuning)

  7. 上下文学习 (In-context learning)

  8. 语言模型提示校准 (Calibration of prompting LLMs)

  9. 推理 (Reasoning)

  10. 知识 (Knowledge)

  11. 数据 (Data)

  12. 模型扩大 (Scaling)

  13. 隐私 (Privacy)

  14. 评估偏见和有害内容 (Bias & Toxicity I: evaluation)

  15. 缓解偏见和有害内容 (Bias & Toxicity II: mitigation)

  16. 稀疏模型 (Sparse models)

  17. 检索增强语言模型 (Retrieval-based LMs)

  18. 人类反馈训练语言模型 (Training LMs with human feedback)

  19. 代码语言模型 (Code LMs)

  20. 多模态语言模型 (Multimodal LMs)

  21. AI对齐 (AI Alignment) ⋙ 普林斯顿大学 COS 597G (Fall 2022)

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!


http://www.niftyadmin.cn/n/4963842.html

相关文章

day 37 | ● 1049. 最后一块石头的重量 II ● 494. 目标和 ● 474.一和零

1049. 最后一块石头的重量 II 与前一道分割等和子集的思路差不多,都是01背包问题。因为是采用滚动数组的形式,所以必须要倒序遍历才可以。 dp[i]代表着在i的限制下最大的承重。所以另一半就是all - dp【all / 2】 func lastStoneWeightII(stones []int…

72 # http 缓存策略

前面实现了一个 http-server,并且实现了 gzip 的压缩,下面通过前面几节学习的缓存知识来添加一下缓存。 大致就是先强制缓存 10s,然后采用协商(对比)缓存,大致图如下 在之前的 http-server 的代码基础上添…

TensorFlow 介绍

TensorFlow 是一个开源的机器学习框架,由 Google 开发。它支持多种机器学习和深度学习算法,包括神经网络、卷积神经网络、循环神经网络等。TensorFlow 利用数据流图的形式来表达计算,将输入数据和计算操作表示为节点,建立 TensorF…

maven无法从阿里云中央仓库下载jar包的解决方法

这个方法不一定适用于所有人。 问题描述:启动公司的SpringBoot项目时,maven爆红提示从阿里云中央仓库找不到目标jar包,但我本地maven仓库是有这个jar包的(版本也对的上),我就好奇maven为什么不从本地获取ja…

计算机安全学习笔记(I):访问控制安全原理

访问控制原理 从广义上来讲,所有的计算机安全都与访问控制有关。 RFC 4949: Internet Security Glossary, Version 2 (rfc-editor.org) RFC 4949 定义的计算机安全:用来实现和保证计算机系统的安全服务的措施,特别是保证访问控制服务的措施…

Datawhale AI夏令营 - 用户新增预测挑战赛 | 学习笔记

数据分析与可视化 为了拟合出更好的结果就要了解训练数据之间的相互关系,进行数据分析是必不可少的一步 导入必要的库 # 导入库 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns pandas库是一个强大的分析结构化…

Qt的输出

目录 基本分类 C风格输出 C风格 可以抑制输出 方法一 方法二 在Qt中进行log输出, 一般不使用c中的printf, 也不是使用C中的cout, Qt框架提供了专门用于日志输出的类, 头文件名为 QDebug。 基本分类 qDebug:调试信息提示 qInfo :输出信息 qWarnin…

自定义字符串校验器 ExcelValidator.java

自定义字符串校验器 ExcelValidator.java 简介 字符串校验器。开发excel批量处理数据时开发使用,快速校验读取出的每一个单元格数据是否符合预定格式; api 目标字符串是目标数组中的一个 checkContains(String[] array);限制字符串的最大…