OpenAI涉嫌违规如何使用YouTube视频训练大模型丨阿里开源320亿Qwen1.5模型丨奥特曼与苹果前设计总监合办AI公司

互联网2024年4月8日报道丨AI资讯早报 纽约时报:OpenAI涉嫌违规使用YouTube视频训练大模型 当地时间4月6日,据《纽约时报》报道,该媒体引用消息

互联网2024年4月8日报道丨AI资讯早报

纽约时报:OpenAI涉嫌违规使用YouTube视频训练大模型

当地时间4月6日,据《纽约时报》报道,该媒体引用消息人士的情报称,OpenAI正在面临严重的训练数据不足问题。随着2021年底OpenAI发现训练素材越来越不够用时,研究人员创建了一款名为「Whisper」的语音识别工具,用以将YouTube视频转录为对话文本,最终转录了超100万小时的YouTube视频的对话内容。

该公司将这些转录的视频对白素材,用于训练GPT-4等大模型。YouTube官方曾发文称,禁止将其平台上传的视频用于其他独立于该视频平台之外的应用程序开发,OpenAI的做法可能违反了YouTube的相关规则。《纽约时报》记者认为,OpenAI、谷歌和Meta在寻求在线信息来训练最新的AI系统时,都存在无视公司政策及规避版权法的行为。

阿里云通义千问开源320亿参数模型Qwen1.5-32B

阿里云通义千问今日开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,例如相比14B模型,32B在智能体场景下能力更强;相比72B,32B的推理成本更低。迄今通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。

图片

基础能力方面,通义千问320亿参数模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异,性能接近通义千问720亿参数模型,远超其他300亿级参数模型。

通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型,是国内开源大模型最多的研发机构。此次开源的320亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡,其希望32B开源模型能为企业和开发者提供更高性价比的模型选择。

OpenAI改进微调API,帮助企业客户定制大模型训练计划

当地时间4月4日,OpenAI官网宣布,将推出微调API新功能,并宣布扩展“自定义模型”的计划,以帮助企业客户开发更强大的定制生成式AI模型。为了让开发人员能够更好地控制模型微调,OpenAI推出了基于Epoch的检查点创建、模型比较、第三方集成、全面的验证指标、超参数配置、微调仪表板改进等功能。同时,OpenAI将去年11月推出的自定义模型计划扩展,宣布其辅助微调产品成为定制模型计划的一部分。

图片

OpenAI奥特曼与苹果前设计总监艾维合办AI公司,融资10亿美元

据The Information报道,由前苹果首席设计师乔纳森·艾维(Jony Ive)和OpenAI CEO奥特曼创立的一家神秘AI公司近期已开始与风险投资领域的一些知名人士进行融资谈判,二人正计划创办一家AI产品的开发公司。

一位参与该过程的人士表示,该公司已经与Emerson Collective和Thrive Capital讨论了交易,计划筹集最多10亿美元资金。

媒体曝:Meta的AI图像生成器存在种族偏见

据The Verge报道,当地时间4月3日,该网站的记者近期多次尝试使用特殊定义的CP情侣词汇来引导AI图像大模型生成“亚洲男人和白人朋友”“亚洲男人和白人妻子”、“亚洲女人和白人丈夫”等提示词来创建图像,Meta的AI图像生成器都无法胜任这种亚裔与白人合影的图像生成需求。

对此该记者撰写文章认为,目前诸多的AI系统的生成不准确问题时,会呈现其大模型研究者、创建者、培训者及其使用的训练数据集存在某种违背普世价值的人文偏见。

华盛顿州法官裁决AI增强视频不可用于呈堂证供

当地时间4月3日,外媒NBC News报道,华盛顿州一名负责监督三重谋杀案的法官在近期的裁决中禁止使用AI增强的视频作为证据,相关技术专家称,该裁决可能是美国地区的刑事法院首例涉及到AI生成内容作为呈堂证供的判例。

法庭文件显示,一名男子被指控于2021年在西雅图地区一家酒吧外开枪,造成三人死亡、两人受伤,该男子的律师曾试图引入经过机器学习软件AI增强的手机视频作为呈堂的证据时,被法官驳回。裁决文件称,增强后的图像“不准确、具有误导性且不可靠”。