(相关资料图)

微软德国公司的首席技术官安德烈亚斯·布劳恩透露,微软将在下周推出GPT-4,它是一个多模态模型,可以处理文本、图像、音频和视频。他表示,大型语言模型(LLM)已经适用于几乎所有语言,可以在一种语言中提出问题,然后在另一种语言中得到答案。

此外,微软的AI技术专家克莱门斯·希伯和霍尔格·肯恩提供了一些信息,其中肯恩解释了多模态人工智能的概念,而希伯则提供了一些用例,包括将电话呼叫的语音直接记录为文本等。微软过去几天发布了多模态语言大模型Kosmos-1和Visual ChatGPT的论文,希望将感知与LLM保持一致,让单个AI模型既能看文字图片,也能说话。

推荐内容

热点新闻