是谁拖了中国ChatGPT的后腿?

是谁拖了中国ChatGPT的后腿?

ChatGPT:中国人工智能的挑战和机遇

ChatGPT作为一款通用人工智能产品,在全球信息技术产业界引起了巨大的轰动。它以其多功能的AI助手身份,能够与人类进行对话、帮助起草邮件和律师信、解答哲学问题、书写代码,甚至撰写剧本和诗歌等等。这样一款全能型的AI产品,在人类历史上尚属首次。比尔盖茨将ChatGPT的出现意义比作互联网的诞生,微软CEO纳德拉认为它相当于工业革命,而人工智能爱好者们又惊叹着”奇点”来临,普通人则担心自己的工作被全能型AI助手取代。AI技术在过去的25年中不断进化,但人类对AI的反应却未能展现出同等的成熟度。

然而,尽管ChatGPT具备极高的智能水平,但它在提供准确性方面仍有不足之处。然而,对于结构化信息论述、开启想象力和释放创造力等方面,ChatGPT经常给人们带来惊艳之感。虽然无法具体列举出ChatGPT的具体用途,但它却能帮助完成许多琐碎、冗余甚至具有创造力的事情。

ChatGPT的诞生让中国人工智能领域备感刺激。中国的人工智能公司和研究机构数量众多,其整体估值也不低。然而,与ChatGPT相比,中国的人工智能独角兽们在人效和价值上存在巨大差距。ChatGPT的成功突出了中国在通用自然语言处理模型领域的不足,人们开始感叹中美人工智能差距的进一步扩大,认为中国想要迎头赶上这股浪潮任重道远。还有一些人开始讨论为什么中国没有自己的ChatGPT,归结原因为”中国缺乏创新土壤”和”中国互联网公司都在搞直播和买菜”等。

事实上,中国的互联网公司并非都在从事直播和买菜业务。相反,它们也在进行半导体开发、AI模型研究和自动驾驶等领域的探索。中国在训练复杂的自然语义模型方面,并不逊色于美国同行,起点也并不低。然而,近年来中美在大型模型领域的差距,并非是认识、起点和能力问题,而是道路和方法的差异。

中美之间在类ChatGPT的人机对话模型领域的差距,并非源于所谓的监管问题。如果你与ChatGPT进行坦诚的交流,探讨宗教、文化、民族和地缘政治等议题,你会发现它在似乎拒绝和审慎讨论这些议题的背后隐藏着特定的立场倾向,与美国主流价值观微妙地重合。可以说,任何一个自然语义模型的建构、语料采集、训练和参数调整过程,都是基于特定价值体系的”内容审查”过程。我们不应该讨论在自然语义模型中如何”生成”中国的价值立场的问题,而是应该探讨如何真正地制衡英语主导全球互联网语料库所导致的世界观与文化霸权,加强中文语言在全球自然语义处理系统中的地位,为世界人工智能和人机对话的发展提供文化上的多样性。

关于中文互联网信息内容质量差导致中国类ChatGPT模型语料污染的说法,我并不同意。英语内容在互联网上占据绝对优势,其中低质量的内容也很多。这些内容会影响到自然语义模型训练的过程和结果。ChatGPT在早期的训练中优先使用了内容质量较高的社交论坛Reddit上的高赞内容。如果中国选择了知乎和得到等知识社区,以及主流媒体作为语料库,就不存在语料被污染的问题。此外,那些声称”中文内容质量低”的人,往往缺乏足够的外语水平和阅读广度,无法支撑自己的论断。

然而,ChatGPT的崛起对我这个一直呼吁”告别硅谷崇拜”的人来说,确实是一个有挑战性的理念。这并不是因为我认为中国和美国在人工智能领域的差距有所扩大,而是因为ChatGPT作为一个通用人工智能人机对话模型,是一个真正可能推动社会生产协作和文明进程的工具。它的意义超过了移动互联网的出现,堪比电子邮件和搜索引擎的诞生。作为一个人工智能大国,中国不再是信息技术产业一穷二白的国家,但我们没有实现类似ChatGPT这样的通用人工智能模型的创新,也没有让训练基于中国文化和价值体系的基础语料模型成为现实。

然而,中美通用人工智能模型的训练方式存在巨大差异。大型公司通常无法达到创业公司训练模型的效果。这也是为什么谷歌的LaMDA对话应用模型和Bard没有取得显著成果的原因。中国的创业公司在通用模型的训练上更为擅长,他们愿意投入巨额资金来进行训练,而大公司的投资回报压力较大,不敢大胆尝试。然而,中国也有自己的通用人工智能模型,如百度的飞桨和阿里巴巴、字节跳动以及滴滴所开发的自然语义训练模型。尽管中国起点不低,但在大型模型领域的差距并非是认识、起点和能力问题,而是道路和方法的不同。

中美在类ChatGPT的人机对话模型领域的差距,并非是所谓的监管问题导致的。ChatGPT在看似拒绝和审慎讨论特定议题时,隐藏着特定的立场倾向。本身就存在内容审查,与美国社会的主流价值观相吻合。因此,我们不再讨论在自然语义模型中如何”生成”中国的价值立场问题,而是要探讨如何真正地制衡英语主导全球互联网语料库所导致的世界观与文化霸权,加强中文语言地位,为世界人工智能和人机对话的发展提供文化上的多样性。

中文互联网内容质量导致中国类ChatGPT模型的语料污染的说法没有充分依据。英语内容在互联网上占据主导地位,其中低质量内容比例也不低。ChatGPT在早期的训练中选择了质量较高的社交论坛Reddit上的内容进行训练。如果中国选择了知识社区和主流媒体作为语料库,就不存在语料被污染的问题。此外,那些声称”中文内容质量低”的人,往往缺乏足够的外语水平和阅读广度,无法支撑自己的论断。

无论如何,ChatGPT的出现对于那些一直呼吁”告别硅谷崇拜”的人来说,是一个令人振奋的刺激,也是一个观念上的挑战。我们并不关心中美在人工智能领域的差距是否扩大,而更关注ChatGPT这样的通用人工智能人机对话模型对协作和进步的推动作用。中国已经不再是信息技术产业一穷二白的国家,但我们没有让类似ChatGPT这样的通用人工智能模型的创新首先发生在中国,没有训练一个基于中国文化和价值体系的模型。

不仅如此,ChatGPT模型的训练需要巨额投资和持续的耐心。大公司通常不具备训练这样的模型的定力,并且在协调投资和回报周期方面面临巨大的压力。此外,中美通用人工智能模型的训练方式也存在差异,这对于中国尚不具备足够的投资机构和投资人的挑战来说尤为明显。

中国需要确立通向自己通用自然语义大模型的愿景,并汇集财务投资和战略投资方的支持。只有这样,中国才能拥有真正属于自己的通用人工智能模型,为全球提供中国智慧、中国价值体系和中国方案。同时,中国也需要具备定力和耐心,在海量数据、高质量创造性内容输出和产业应用落地等方面进行综合权衡。这需要投资机构和投资人具备长远的眼光和持之以恒的投入。

中国不缺乏优秀的创业者和科学家,但却缺少视野开阔、有定力和远见的投资机构和投资人。中国需要那些持续几年如一日投入训练自然语义大模型、能够提供长期支持的投资机构和投资人。只有这样,中国的自然语义模型建构和训练才能取得进一步的突破,实现世界领先地位。