热搜：编程 Python Microsoft 编程语言 C++

OpenAI涉嫌违规如何使用YouTube视频训练大模型丨阿里开源320亿Qwen1.5模型丨奥特曼与苹果前设计总监合办AI公司

发布时间：2024-04-08 12:03:11 来源：网络

.

互联网2024年4月8日报道丨AI资讯早报纽约时报：OpenAI涉嫌违规使用YouTube视频训练大模型当地时间4月6日，据《纽约时报》报道，该媒体引用消息

互联网2024年4月8日报道丨AI资讯早报

纽约时报：OpenAI涉嫌违规使用YouTube视频训练大模型

当地时间4月6日，据《纽约时报》报道，该媒体引用消息人士的情报称，OpenAI正在面临严重的训练数据不足问题。随着2021年底OpenAI发现训练素材越来越不够用时，研究人员创建了一款名为「Whisper」的语音识别工具，用以将YouTube视频转录为对话文本，最终转录了超100万小时的YouTube视频的对话内容。

该公司将这些转录的视频对白素材，用于训练GPT-4等大模型。YouTube官方曾发文称，禁止将其平台上传的视频用于其他独立于该视频平台之外的应用程序开发，OpenAI的做法可能违反了YouTube的相关规则。《纽约时报》记者认为，OpenAI、谷歌和Meta在寻求在线信息来训练最新的AI系统时，都存在无视公司政策及规避版权法的行为。

阿里云通义千问开源320亿参数模型Qwen1.5-32B

阿里云通义千问今日开源320亿参数模型Qwen1.5-32B，可最大限度兼顾性能、效率和内存占用的平衡，例如相比14B模型，32B在智能体场景下能力更强；相比72B，32B的推理成本更低。迄今通义千问共开源了7款大语言模型，在海内外开源社区累计下载量突破300万。

基础能力方面，通义千问320亿参数模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异，性能接近通义千问720亿参数模型，远超其他300亿级参数模型。

通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型，是国内开源大模型最多的研发机构。此次开源的320亿参数模型，将在性能、效率和内存占用之间实现更理想的平衡，其希望32B开源模型能为企业和开发者提供更高性价比的模型选择。

OpenAI改进微调API，帮助企业客户定制大模型训练计划

当地时间4月4日，OpenAI官网宣布，将推出微调API新功能，并宣布扩展“自定义模型”的计划，以帮助企业客户开发更强大的定制生成式AI模型。为了让开发人员能够更好地控制模型微调，OpenAI推出了基于Epoch的检查点创建、模型比较、第三方集成、全面的验证指标、超参数配置、微调仪表板改进等功能。同时，OpenAI将去年11月推出的自定义模型计划扩展，宣布其辅助微调产品成为定制模型计划的一部分。