奥温·穆尔格鲁在 唐宁街10号数据科学团队(10DS)透露,英国政府正利用 AI 重塑公共服务,解决 NHS 候诊名单达 725万 人、积压 35万 起法庭案件等难题,预计每年可释放约 400亿 英镑价值。
👤 WHO: 主角是奥温·穆尔格鲁,唐宁街10号数据科学团队负责人,也是白宫首席技术官
🎯 WHAT: 揭秘英国政府如何利用 AI “重写代码” 来重塑国家运转,从 NHS 到司法系统全覆盖
⏰ WHEN: 团队自疫情期间组建,目前早期阶段,计划12到24个月内规模化推进自动化
🌐 WHERE: 覆盖英国中央政府、地方政府及战略关键领域,并与美国、新加坡等国际合作
❓ WHY: 英国公共服务面临严重危机(725万人候诊、35万起积压案件),急需提升效率和透明度
🔧 HOW: 通过高自主权、灵活薪酬招人才,开发“交付红队测试”及AI导师、Gemini等工具,并定期发布《人工智能机遇行动计划》仪表盘
💡 SO WHAT: 普通人和企业将享受更快的规划审批、更公平的教育、更安全的监狱环境,全球政务效率也将升级
“能量化的东西才能改进。” —— 奥温·穆尔格鲁
[音乐] 准备好了吗?大家能听清我说话吗?太好了,谢谢。这个宏大的标题让我有点不好意思,毕竟它挂在那儿好几秒了。不过话说回来,在场有在政府工作的朋友吗?能举个手吗?非常好,这正是我期待的。你们可能对我接下来要吐槽的内容深有体会。有没有人觉得比这更糟糕的事?好的。能量化的东西才能改进,所以最后我们再来一次。不过说实话,要是更多人举手我可就不敢了。大家好,我是奥温·穆尔格鲁,在唐宁街10号的数据科学团队工作。
嗯,我负责跨政府转型工作,包括我们的研究员项目——这也是今天主要想聊的内容。嗯,今天专程来这儿,是想跟大家分享我们正在做的事,希望各位能考虑加入其中,那可就太棒了。简单介绍一下我们团队:唐宁街10号数据科学团队(10DS)是在疫情期间组建的,部分原因正是为了应对疫情。嗯,我们的核心使命是确保国家最重要的决策都能基于最可靠的证据。
不过,我们正在大幅提升自身的人工智能工程与开发能力,不仅是为了推动唐宁街十号内部的人工智能应用,也覆盖国家战略关键领域。我们推进这项工作的方式本身也颇具创新性。在深入探讨之前,先简单交代一下背景。我知道在座各位有些是从西海岸等地赶来的,可能有人没关注近期新闻。信不信由你,英国公共服务交付确实面临一些挑战——我这话半开玩笑半认真,但实际情况相当严峻。目前英国国家医疗服务体系(NHS)的候诊名单上已有725万人。
我认为大约有35万起法庭案件积压未决。在这个国家,只有五分之一的规划申请决定能按时作出。这一切背后,是一场公共部门的生产力危机——这场危机本就严重,自疫情以来更是雪上加霜。关于这场危机的程度,有各种不同的数据。我引用托尼·布莱尔研究所的数据,该机构称,人工智能每年可为政府带来约400亿英镑的生产力提升。但任何在体制内工作的人以及社会大多数人都清楚,如果说未来几年哪个行业最有可能被颠覆,政府就是其中之一。我称它为“行业”而非“组织”。这是一个庞大而复杂的行业,拥有40万名从业人员。
我认为我们应该从这个角度来审视问题。然而遗憾的是,政府历来不擅长组建和培养高效的技术团队。这些问题并非英国独有,许多美国同行对此也深有体会。常见的问题包括薪酬——这显然是个关键因素,导致我们难以吸引并留住顶尖人才。此外还存在一些实际存在或主观感知的障碍。比如政府机构普遍层级森严,官僚体系繁复,导致办事效率极其低下。
不仅仅是因为这些原因,还因为确实存在非常合理的法规和保障措施,毕竟我们最终要对公众和议会负责。但这一切可能导致一个结果:这个体系并不总是能吸引那些高绩效的技术人才加入,尤其是我们想要的那种——那些急于在世界上留下印记的人。那么,我们该如何应对呢?改变这些现状,就像是一项系统性的挑战。这好比转动一艘油轮——虽然是个老套的比喻,但确实贴切。我们只是中央的一个小团队。
嗯,要转动那艘油轮,远非任何一个团队所能及,更别提像我们这样规模不大的初创公司了。不过,我认为我们的首席人工智能官卡勒姆·比尔今晚将在会议闭幕时发言。这恰恰是他的职责所在,他在科技部的工作也卓有成效,所以我建议大家去听听。但目前确实存在很大的政治意愿,想要推动事情进展,确保这次我们能抓住新技术,切实解决我刚才提到的一些问题。所以,有人向我们提出:"那么,你们能做些什么呢?"这大概就是我们的回答。正如我所说,我们中心团队规模相当小。
就我们能做的事情而言,我们当时说:"好,那就让我们卸下枷锁。"让我们在核心位置组建一支小型"起义"团队,这支团队不会受我刚才提到的那些限制的束缚。我说的"起义模式"是什么意思呢?我们正在组建一支新团队。这支团队受唐宁街十号授权运作,拥有异常高层的政治支持,可以深入各部门推进工作。我们能在合理范围内按市场标准支付薪酬——当然不会像Meta那样财大气粗。但关键在于,只要我们能提供经济上可行的条件,很多人其实很乐意降薪加入,因为他们对这些挑战本身感兴趣,对吧?
嗯,我们的运作方式也拥有异常高的自主权。对于接手的工作,我们可以相当灵活地把握机会,进入某个部门后,能迅速发现可以产生影响的切入点。另外,这一点至关重要——公务员的标准招聘流程虽然为许多方面进行了优化,但未必适合招募顶尖技术人才。而我们被允许采用自己的招聘方式。我们有一套相当严苛的选拔流程,精准聚焦于技术能力。成功率大约只有0.7%到0.8%。最有趣的是,这也是我们与众不同的地方——我们只从外部招募人才。
嗯,我能产生影响力的最佳方式之一,就是让像今天在座各位这样的人进入政府。因为过去的情况往往是,他们不愿离开体制,有些人最终会组建自己的团队。这点我稍后再谈。不过说到这里,我不想让事情听起来过于简单化。许多外部人士,尤其是科技行业的人,认为只要拥有足够的部长级授权,就能直接介入、打破数据孤岛、为所欲为。但实际上,这远比想象中困难得多——否则人人都能做到了。而且目前还处于非常早期的阶段。
我们才刚刚踏上这段旅程,但事实证明人们对它的需求非常旺盛。因此,我们一直在从实验室、大型科技公司、顶尖研究机构招募人才,也吸纳了YC创始人、连续创业者。这些人去年此时大概没想过自己会进入政府部门工作。但仔细想想,部长办公桌上处理的决策,可能是你能参与的最重要的工作之一。所以,如果你能让这项工作在经济上可行,并承诺为他们创造能发挥最佳才能的环境,这就会变得极具吸引力。另外值得强调的是,我们想要招募的是"传教士",而非"雇佣兵"。
嗯,薪酬确实重要,但并非唯一因素。因为当工作变得艰难时,光靠薪水可没法让你在清晨从床上爬起来——而我们从事的工作往往确实充满挑战。至于运作方式,我们和普通政府团队也有些不同。这个体系里存在大量唾手可得的成果。正如你能想象的,这是个传统机构,有很多简单的AI应用案例,花几天时间就能实现节省开支、提升服务效率等成效。这类工作我们基本自主完成,这也是最轻松、最令人满足的部分。
就在我们说话的时候,唐宁街10号历史上首批外派工程师已经进驻政策与运营团队,与政策顾问团队、法律团队、传播团队、民意调查专家等各类人员协同工作。他们正在观察这些团队的工作流程和痛点,与他们共同设计解决方案,帮助他们更高效、更有效地完成工作。通常情况下,他们能在几周内将想法转化为实际应用,让用户快速获得新能力。至于我们讨论的其他问题——比如系统中存在的巨大积压——这些可不是容易解决的"低垂果实"。
这些确实是非常复杂的工作,通常遇到这类情况,我们会采取合作模式,将部分人员派驻到其他团队或部门,有时甚至长期驻扎。稍后我会举例说明这两种情况。先说说那些容易实现的目标。需要指出的是,我们在唐宁街十号做的很多工作其实不便公开。我知道这听起来像是个敷衍的借口,但请相信我。有些内容确实比较敏感。我们正在推进大量工作流程自动化,正如各位想象的那样,为现有团队提供技术增强。这里再列举几个过去几周完成的具体案例。
嗯,政策模拟这个方向确实很有意思。通过这个工具,我们能让政策制定团队在决策前就测试不同政策可能带来的影响。比如现在这个案例,我们正在分析关于统一福利金的不同决策方案,以及它们会如何影响——哦我暂停一下——如何影响家庭财务状况等各方面。当然这个工具的应用范围远不止于此。它并非要取代人类分析,我们也不会因此失业。但关键在于,现在大楼里越来越多的决策都能基于高质量模型快速得出依据,速度远超以往。这是最近几周刚完成的另一个案例。
内阁办公室原本打算花150万英镑聘请外部律师事务所,对整个英国法规全书进行分析。虽然这部法规全书有四头非洲大象那么高的法律术语堆叠,但这显然是个很适合AI的应用场景。所以我们原本要花150万英镑。但后来我们的一名工程师与内部法律团队一起工作了数周。这样做的好处不仅仅是节省了资金——150万英镑可不是小数目——更在于速度。原本计划付费进行的分析存在一个问题:其完成速度将慢于新法律法规的制定速度。这意味着过一段时间后,你不得不重新再做一次分析。
现在我们有了这个工具,团队可以随时使用,想用就用。我们还可以考虑将其开源,与政府其他团队共享。接下来是另一个工具。在唐宁街10号,我们负责政府所有重大项目和竞选承诺的落实。这意味着会有大量报告反馈各项工作的进展。这个工具是几周前团队开发的交付红队测试工具,现在每天都在使用。它本质上是一个项目管理办公室,我们把它装进了唐宁街10号各交付团队的口袋里。
这不仅是为了让他们能够审阅提交上来的交付报告,还能对提交报告的团队进行二次评估。嗯,这会向唐宁街的决策者发出警示,比如,这个团队或部门通常是否带有乐观偏见?他们是否倾向于过度将风险评为黄色?他们的缓解措施通常有效吗?此外,除了采用人工智能,内部拥有这种能力也非常有益。我认为透明度是这个国家可以做得更好的一点。直到几个月前,政府从未发布过面向公众的仪表盘,以便你们能够实际了解我们在交付方面的进展。
不过,我们在短短两个月内已经发布了两份报告。左边这份大家可能比较熟悉,是马特·克利福德大约一年前起草的《人工智能机遇行动计划》。这份报告展示了英国在推广算力以及整体布局成为人工智能应用领先国家方面的进展。现在大家可以在线查看我们的实际成效。另外还有一件事暂时不便透露——再过两个半星期,我们的一位部长将推出一项全新的公共服务,预计全国数百万人会使用。具体细节我不能多说,以免抢了他们的风头。但用他们的话说,"很难相信这项服务之前居然不存在",而我原本以为类似的服务早已存在。
嗯,这是我们两个月前想到的,现在即将上线并供公众使用。毫不夸张地说,在政府内部,类似这样的项目通常需要一年甚至更久的时间来探索。所以,嗯,是的。那我们就进入媒体相关的话题吧。这算是我们内部比较容易实现的目标。嗯,现在我想谈谈我们正在帮助生态系统其他部分的团队所做的一些工作。为了便于说明,我将重点介绍我们的三个合作伙伴:人工智能安全研究所、人工智能孵化器和Just AI。人工智能安全研究所,我想在座的各位应该都很熟悉。这是英国的一项重大成就,我们设立这个机构真是太好了。
嗯,我们是评估前沿模型的主要政府机构,也是全球首个此类机构。从成立第一天起,我们就非常自豪地通过派遣数位研究员协助其建立网络安全工作流程等方式提供支持。这方面我就不多赘述了。不过我们早期的一位研究员是哈里·科克博士——虽然他不在这里——我们从第一天起就将他派驻到AISI。他主导了Inspect工具等项目的开发。此外还有用于测试AI代理在获得自主权和工具后实际行为的CFI隔离环境,以及目前设在华盛顿特区的AI孵化器。在场有谁了解这个孵化器?看来有几位。这个孵化器本质上是我们项目的衍生机构。
嗯,这是科技部下属的一个团队,名副其实地专注于孵化面向公共部门的新人工智能解决方案。最初的核心团队,大部分技术人员都是我们的研究员。现在最棒的不只是看到他们在任职期间产出的成果,更在于我们能与他们合作,将这些成果规模化推广。举个最近的例子:这个工具叫Extract,我们团队有不少人参与过开发,这是与DeepMind的合作项目。
该系统基于Gemini构建,主要实现了规划申请流程的数字化,特别是那些目前仍以手写为主的部分,包括手绘地图。该系统由首相在去年伦敦科技周上发布,目前我们正在向英格兰所有地方当局推广。正如我所说,目前只有五分之一的规划申请能按时完成审批。这对经济增长产生了巨大影响,而经济增长正是这个国家当前面临的最大挑战。因此,任何能在这方面取得进展的措施都至关重要。
从长远来看,这有望让更多规划申请由AI自动处理。另一个有趣的话题是当前的热点——教育差距问题不仅存在于英国,在其他地区也很突出。各位可能都读过关于AI导师的报道。这是一个激动人心的时刻,有望在一定程度上实现教育公平,让每个孩子都能获得世界级导师的指导,无论其社会经济背景如何。但这需要非常谨慎地推进。目前我们正在制定保障措施,并针对各类前沿模型进行相关评估。
嗯,不仅要确保孩子们能在课堂环境中安全地使用这些设备,还要根据各种指标对他们进行评估。我认为在这一方面,相关的benchmark是学生所承受的认知负荷。最后但同样重要的是,新加入的Just AI团队。有些人可能昨天参加了Just AI的演讲。有人在场吗?是的。好的,很好。对大多数人来说,这是新事物。嗯,Just AI是司法部新成立的团队,其中一些成员就在那边。大家好。嗯,我不会说这是从研究员项目中衍生出来的,那会让我们显得过于重要。但Just AI的创始人是我们以前的研究员之一丹·詹姆斯,他在那里做出了出色的工作。
他们将yi前部署工程师派往监狱和刑事司法系统的其他部门。嗯,这有点像我们在唐宁街10号的做法,与政策人员、公关人员和律师合作,但不同的是,他们直接与假释官和监狱长一起工作。他们做了很多非常有趣的工作。我不能透露太多细节,嗯,但大部分工作都围绕利用人工智能阻止毒品流入监狱,在目前需要大量人力的手动流程中寻找效率提升点,并普遍改善监狱系统的安全与安保。嗯,其中一位AFE就在那边。那是威尔。嗯,威尔是我们目前的研究员之一。抱歉,威尔,让你尴尬了。
我昨晚刚把你的照片加进去,因为我觉得这算是个不错的收尾点。威尔,简单介绍一下——几个月前威尔还在加州晒日光浴,而这张照片里他正站在雨天的旺兹沃思监狱外。没错,威尔从哈佛辍学创业,公司进了Y Combinator,赚了些钱,但他想加入我们。这是他入职第二周,正拿着监狱钥匙站在门外准备进去。这正是我们通过这个项目想做的事——你在行业里可能已经做出成绩,这很棒。加入我们,我们会把国家的钥匙交给你,看看你能做些什么。不过现在确实还处于非常早期的阶段。
嗯,我们正在做的事情有点像一场实验。不过我认为目前的成果已经证明,小而精的精英团队确实能取得相当大的成就。我们已经开始节省开支,以前所未有的速度推出新的公共服务,正在改革一线公共服务,并且已经将新的人工智能能力交到政府高层其他团队手中。所以,没错。不出所料,这其实是一则招聘广告——我们正在招人。请扫描二维码报名,今天剩下的时间我都会在这里,欢迎随时过来聊聊。谢谢。(掌声)我想我应该还有时间回答几个问题,可能吧。如果有人提醒我时间到了也行。有提问吗?
哦,在你之前展示的一个例子里,有个用聊天来解释政策的工具——不是解释,而是尝试不同的方案,看看它们会如何表现。你需要处理那种“谄媚迎合”的问题吗?就是那种,用户可能对AI不太了解,只想听到自己想听的话,于是引导工具说:“看,我真是个绝顶聪明的策略家。我的政策绝对棒极了”——尽管政策实际上很糟糕,但AI却……
对对对,确实如此。比如用户问“我应该把所得税降到0%吗?”AI回答“您完全正确。”嗯,这确实是个非常现实的风险。
嗯,这个问题我们遇到的并不多,但这只是因为我们已经在将模型交到用户手中之前,对它们进行了红队测试。我们还提供了相当多的技能提升培训。嗯,和我们合作的很多团队一样,我们正在为他们创建工具。他们可能是律师、社会学家、教授,或者其他什么职业。所以,我们确实会指导他们了解这带来的某些风险。嗯,但这是个好问题。谢谢。你好,非常感谢你的演讲。我是埃森哲的杰克。我觉得你在招聘方面比我们更胜一筹,但我们会继续努力的。嗯,我的问题关于政策方面:随着这种FDE类型的模型逐渐产生影响,你怎么看——哦,正如你所说,这还只是早期的实验。
你如何看待开始进入scale,并真正着手处理中央政府、地方政府、不同党派路线等等问题?这种真实的、政府层面的、人性化的立场,你认为会如何发展?是的,百分之百。那么,关于这个scale如何运作,我猜最后我说过,哦,你知道,我们可以做很多事情,一些加入我们的人随后建立了他们的新团队,这很好。但这足以扭转整个局面吗?不,可能随着时间的推移可以,但那需要很长时间,而我们需要更快地解决这些问题。嗯,所以我们一直在思考这个问题。我认为现实地说,其中一些事情需要战略性的干预。
嗯,所以我们需要改变政府其他部门的运作方式。我们与部长们达成协议的部分原因,基本上就是让他们解除束缚,让我们在中心设立一个遵守不同规则的小团队,并将其作为示范点。所以这几乎就像是一个试点项目。我希望我们正在做的很多事情能成为常态,成为常规工作。目前这基本上是一种绕过现有系统的临时手段。因此,我们首先需要改变这一点。嗯,另外,如果我们真的在讨论scale,我们提到了一些相当有针对性的用例。嗯,我认为在未来12到24个月内,我们想做的是更多横向工作,着眼于流程。
所以,我也应该向人们解释这一点。比如,当你想到公务员时,你可能会想到在窗外可见的某些大楼里工作的政策制定者。但这只是公务员队伍中极小的一部分。公务员总数大约有40万人,其中大多数是呼叫中心接线员、监狱管理员、护士等等。此外,还有很多流程,比如转录工作——每个警察都会告诉你这是他们最头疼的事——或者像就业与养老金部、税务海关总署那样的大型呼叫中心。所以,如果我们想要提升目标,我希望看到我们能够更多地追求那些可以大规模应用于整个系统的横向用例。呃,抱歉,这个回答有点长了。
>> [笑声] >> 呃,我想这是最后一个问题了。是的,如果你想喊的话可以喊。这取决于你。呃,是的,我供职于一家教育科技公司,该公司除了其他业务外,还在开发人工智能导师。所以,我很想和你多聊聊这个。但我们发现的一个问题是,大多数孩子面临的最大难题是——你可以制造出世界上最好的人工智能导师,但真正的挑战在于动力。你知道,如果你让一个孩子,比如一个12岁的孩子坐在电脑前,他们会想尽一切办法逃避学习。所以,我的问题是,首先,我很想了解更多,比如政府对此的愿景是什么?这会进入学校吗?
孩子们会坐在电脑前使用它吗?其次,你们如何解决学习动力的问题?是的,完全如此。目前,我认为我们的计划主要不是开发与你们竞争的产品,而是为学校设定采用各种产品的标准和规范。至于学生的接受度,我们在这方面还没有做太多工作。你刚才看到的测试是我们的初步测试,大概有70名教师参与,他们当时在模拟学生的角色。所以,你的经验可能非常有价值。我们稍后可以聊聊。我来自挪威。
嗯,看到你们的雄心壮志真是太好了,我相信欧洲许多国家也在做同样的事情。你们是否与其他国家有任何形式的合作?比如交流经验、分享想法之类的?是的,有一点。嗯,挪威没有,但如果你有联系人,我很乐意和他们聊聊。嗯,是的,我们确实有一些合作。有几个团队在做和我们类似的事情,虽然方式略有不同。美国政府也在推进几项不同的举措,这些举措和我们做的事情相差不远。比如那个特别工作组,还有美国数字服务部门的一些部分。新加坡也是,我们和新加坡交流得比较多。嗯,但确实,我们还可以做得更多。
嗯,所以,如果你在挪威政府有任何关系,我非常乐意接受。就这样。>> [掌声] [音乐]