
Reaching Across the Isles: UK-LLM Brings AI to UK Languages With NVIDIA Nemotron
blogs.nvidia.com
Celtic languages including Cornish, Irish, Scottish Gaelic and Welsh are the U.K.s oldest living languages. To empower their speakers, the UK-LLM sovereign AI initiative is building an AI model based on NVIDIA Nemotron that can reason in both English and Welsh, a language spoken by about 850,000 people in Wales today.Enabling high-quality AI reasoning in Welsh will support the delivery of public services including healthcare, education and legal resources in the language.I want every corner of the U.K. to be able to harness the benefits of artificial intelligence. By enabling AI to reason in Welsh, were making sure that public services from healthcare to education are accessible to everyone, in the language they live by, said U.K. Prime Minister Keir Starmer. This is a powerful example of how the latest AI technology, trained on the U.K.s most advanced AI supercomputer in Bristol, can serve the public good, protect cultural heritage and unlock opportunity across the country.The UK-LLM project, established in 2023 as BritLLM and led by University College London, has previously released two models for U.K. languages. Its new model for Welsh, developed in collaboration with Wales Bangor University and NVIDIA, aligns with Welsh government efforts to boost the active use of the language, with the goal of achieving a million speakers by 2050 an initiative known as Cymraeg 2050.U.K.-based AI cloud provider Nscale will make the new model available to developers through its application programming interface. The aim is to ensure that Welsh remains a living, breathing language that continues to develop with the times, said Gruffudd Prys, senior terminologist and head of the Language Technologies Unit at Canolfan Bedwyr, the universitys center for Welsh language services, research and technology. AI shows enormous potential to help with second-language acquisition of Welsh as well as for enabling native speakers to improve their language skills.This new model could also boost the accessibility of Welsh resources by enabling public institutions and businesses operating in Wales to translate content or provide bilingual chatbot services. This can help groups including healthcare providers, educators, broadcasters, retailers and restaurant owners ensure their written content is as readily available in Welsh as they are in English.Beyond Welsh, the UK-LLM team aims to apply the same methodology used for its new model to develop AI models for other languages spoken across the U.K. such as Cornish, Irish, Scots and Scottish Gaelic as well as work with international collaborators to build models for languages from Africa and Southeast Asia.This collaboration with NVIDIA and Bangor University enabled us to create new training data and train a new model in record time, accelerating our goal to build the best-ever language model for Welsh, said Pontus Stenetorp, professor of natural language processing and deputy director for the Centre of Artificial Intelligence at University College London. Our aim is to take the insights gained from the Welsh model and apply them to other minority languages, in the U.K. and across the globe.Tapping Sovereign AI Infrastructure for Model DevelopmentThe new model for Welsh is based on NVIDIA Nemotron, a family of open-source models that features open weights, datasets and recipes. The UK-LLM development team has tapped the 49-billion-parameter Llama Nemotron Super model and 9-billion-parameter Nemotron Nano model, post-training them on Welsh-language data.Compared with languages like English or Spanish, theres less available source data in Welsh for AI training. So to create a sufficiently large Welsh training dataset, the team used NVIDIA NIM microservices for gpt-oss-120b and DeepSeek-R1 to translate NVIDIA Nemotron open datasets with over 30 million entries from English to Welsh.They used a GPU cluster through the NVIDIA DGX Cloud Lepton platform and are harnessing hundreds of NVIDIA GH200 Grace Hopper Superchips on Isambard-AI the U.K.s most powerful supercomputer, backed by 225 million in government investment and based at University of Bristol to accelerate their translation and training workloads.This new dataset supplements existing Welsh data from the teams previous efforts.Capturing Linguistic Nuances With Careful EvaluationBangor University, located in Gwynedd the county with the highest percentage of Welsh speakers is supporting the new models development with linguistic and cultural expertise.Welsh translation of: The aim is to ensure that Welsh remains a living, breathing language that continues to develop with the times. Gruffudd Prys, Bangor UniversityPrys, from the universitys Welsh-language center, brings to the collaboration about two decades of experience with language technology for Welsh. He and his team are helping to verify the accuracy of machine-translated training data and manually translated evaluation data, as well as assess how the model handles nuances of Welsh that AI typically struggles with such as the way consonants at the beginning of Welsh words change based on neighboring words.The model, as well as the Welsh training and evaluation datasets, are expected to be made available for enterprise and public sector use, supporting additional research, model training and application development.Its one thing to have this AI capability exist in Welsh, but its another to make it open and accessible for everyone, Prys said. That subtle distinction can be the difference between this technology being used or not being used.Deploy Sovereign AI Models With NVIDIA Nemotron, NIM MicroservicesThe framework used to develop UK-LLMs model for Welsh can serve as a foundation for multilingual AI development around the world.Benchmark-topping Nemotron models, data and recipes are publicly available for developers to build reasoning models tailored to virtually any language, domain and workflow. Packaged as NVIDIA NIM microservices, Nemotron models are optimized for cost-effective compute and run anywhere, from laptop to cloud.Europes enterprises will be able to run open, sovereign models on the Perplexity AI-powered search engine.Get started with NVIDIA Nemotron.Welsh translation:Ymestyn Ar Draws yr Ynysoedd: Mae DU-LLM yn Dod Deallusrwydd Artiffisial i Ieithoedd y DU Gyda NVIDIA NemotronWedii hyfforddi ar yr uwch gyfrifiadur Isambard-AI, mae model newydd a ddatblygwyd gan University College London, NVIDIA a Phrifysgol Bangor yn manteisio ar dechnegau a setiau data ffynhonnell agored NVIDIA Nemotron i alluogi rhesymu Deallusrwydd Artiffisial ar gyfer y Gymraeg ac ieithoedd eraill y DU ar gyfer gwasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol.Ieithoedd Celtaidd gan gynnwys Cernyweg, Gwyddeleg, Gaeleg yr Alban a Chymraeg yw ieithoedd byw hynaf y DU. Er mwyn grymuso eu siaradwyr, mae menter Deallusrwydd Artiffisial sofran y DU-LLM yn adeiladu model Deallusrwydd Artiffisial yn seiliedig ar NVIDIA Nemotron a all resymu yn Saesneg a Chymraeg hefyd, iaith a siaredir gan tua 850,000 o bobl yng Nghymru heddiw.Bydd galluogi rhesymu Deallusrwydd Artiffisial o ansawdd uchel yn y Gymraeg yn cefnogir ddarpariaeth o wasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol yn yr iaith.Rwyf am i bob cwr or DU allu harneisio manteision deallusrwydd artiffisial. Drwy alluogi deallusrwydd artiffisial i resymu yn y Gymraeg, rydym yn sicrhau bod gwasanaethau cyhoeddus o ofal iechyd i addysg yn hygyrch i bawb, yn yr iaith maen nhwn byw ynddi, meddai Prif Weinidog y DU, Keir Starmer. Mae hon yn enghraifft bwerus o sut y gall y dechnoleg dddiweddaraf, wedii hyfforddi ar uwch gyfrifiadur deallusrwydd artiffisial mwyaf datblygedig y DU ym Mryste, wasanaethu lles y cyhoedd, amddiffyn treftadaeth ddiwylliannol a datgloi cyfleoedd ledled y wlad.Mae prosiect DU-LLM, a sefydlwyd yn 2023 fel BritLLM ac a arweinir gan University College London, wedi rhyddhau dau fodel ar gyfer ieithoedd y DU yn flaenorol. Mae ei fodel newydd ar gyfer y Gymraeg, a ddatblygwyd mewn cydweithrediad Phrifysgol Bangor Cymru ac NVIDIA, yn cyd-fynd ag ymdrechion llywodraeth Cymru i hybu defnydd gweithredol or iaith, gydar nod o gyflawni miliwn o siaradwyr erbyn 2050 menter or enw Cymraeg 2050.Bydd darparwr cwmwl Deallusrwydd Artiffisial yn y DU, Nscale, yn sicrhau bod y model newydd ar gael i ddatblygwyr trwy ei ryngwyneb rhaglennu rhaglenni (API).Y nod yw sicrhau bod y Gymraeg yn parhau i fod yn iaith fyw, syn anadlu ac syn parhau i ddatblygu gydar oes, meddai Gruffudd Prys, uwch derminolegydd a phennaeth yr Uned Technolegau Iaith yng Nghanolfan Bedwyr, canolfan y brifysgol ar gyfer gwasanaethau, ymchwil a thechnoleg y Gymraeg. Mae deallusrwydd artiffisial yn dangos potensial aruthrol i helpu gyda chaffael y Gymraeg fel ail iaith yn ogystal galluogi siaradwyr brodorol i wella eu sgiliau iaith.Gallair model newydd hwn hefyd roi hwb i hygyrchedd adnoddau Cymraeg drwy alluogi sefydliadau cyhoeddus a busnesau syn gweithredu yng Nghymru i gyfieithu cynnwys neu ddarparu gwasanaethau sgwrsfot dwyieithog. Gall hyn helpu grwpiau gan gynnwys darparwyr gofal iechyd, addysgwyr, darlledwyr, manwerthwyr a pherchnogion bwytai i sicrhau bod eu cynnwys ysgrifenedig yr un mor hawdd ar gael yn y Gymraeg ag y mae yn Saesneg.Y tu hwnt ir Gymraeg, mae tm y DU-LLM yn anelu at gymhwysor un fethodoleg a ddefnyddiwyd ar gyfer ei fodel newydd i ddatblygu modelau Deallusrwydd Artiffisial ar gyfer ieithoedd eraill a siaredir ledled y DU fel Cernyweg, Gwyddeleg, Sgoteg a Gaeleg yr Alban yn ogystal gweithio gyda chydweithwyr rhyngwladol i adeiladu modelau ar gyfer ieithoedd o Affrica a De-ddwyrain Asia.Maer cydweithrediad hwn gydag NVIDIA a Phrifysgol Bangor wedi ein galluogi i greu data hyfforddi newydd a hyfforddi model newydd mewn amser record, gan gyflymu ein nod o adeiladur model iaith gorau erioed ar gyfer y Gymraeg, meddai Pontus Stenetorp, yr athro prosesu iaith naturiol a dirprwy gyfarwyddwr y Ganolfan Deallusrwydd Artiffisial yn University College London. Ein nod yw cymryd y mewnwelediadau a gafwyd or model Cymraeg au cymhwyso i ieithoedd lleiafrifol eraill, yn y DU ac ar draws y byd.Manteisio ar Seilwaith Deallusrwydd Artiffisial Sofran ar gyfer Datblygu ModelMaer model newydd ar gyfer y Gymraeg yn seiliedig ar NVIDIA Nemotron, teulu o fodelau ffynhonnell agored syn cynnwys pwysau, setiau data a ryseitiau agored.Maer tm datblygu DU-LLM wedi manteisio ar fodel 49-biliwn-paramedr Llama Nemotron Super a model 9-biliwn-paramedr Nemotron Nano, gan eu hl hyfforddi ar ddata iaith Gymraeg.Oi gymharu ag ieithoedd fel Saesneg neu Sbaeneg, mae llai o ddata ffynhonnell ar gael yn y Gymraeg ar gyfer hyfforddiant Deallusrwydd Artiffisial. Felly, er mwyn creu set ddata hyfforddi Cymraeg ddigon mawr, defnyddiodd y tm ficrowasanaethau NVIDIA NIM ar gyfer gpt-oss-120b a DeepSeek-R1 i gyfieithu setiau data agored NVIDIA gyda dros 30 miliwn o gofnodion or Saesneg ir Gymraeg.Defnyddion nhw glwstwr GPU drwy blatfform NVIDIA DGX Cloud Lepton ac yn harneisio cannoedd o Uwchsglodion NVIDIA GH200 Grace Hopper ar Isambard-AI uwchgyfrifiadur mwyaf pwerus y DU, gyda chefnogaeth 225 miliwn o fuddsoddiad gan y llywodraeth ac wedii leoli ym Mhrifysgol Bryste i gyflymu eu llwythi gwaith cyfieithu a hyfforddi.Maer set ddata newydd hon yn ategu data presennol yr iaith Gymraeg o ymdrechion blaenorol y tm.Cipio Naws Ieithyddol Gyda Gwerthusiad GofalusMae Prifysgol Bangor, sydd wedii lleoli yng Ngwynedd y sir gydar ganran uchaf o siaradwyr Cymraegs yn cefnogi datblygiad y model newydd gydag arbenigedd ieithyddol a diwylliannol.Mae Prys, o ganolfan Gymraeg y brifysgol, yn dod thua dau ddegawd o brofiad gyda thechnoleg iaith ar gyfer y Gymraeg ir cydweithrediad. Mae ef ai dm yn helpu i wirio cywirdeb data hyfforddi a gyfieithir gan beiriannau a data gwerthuso a gyfieithir llaw, yn ogystal ag asesu sut maer model yn ymdrin naws Gymraeg y mae Deallusrwydd Artiffisial fel arfer yn cael trafferth nhw megis y ffordd y mae cytseiniaid ar ddechrau geiriau Cymraeg yn newid yn seiliedig ar eiriau cyfagos.Disgwylir ir model, yn ogystal r setiau data hyfforddiant a gwerthusor Gymraeg, fod ar gael i fentrau ar sector cyhoeddus eu defnyddio, gan gefnogi ymchwil ychwanegol, hyfforddiant modelu a datblygu rhaglenni.Maen un peth cael y gallu Deallusrwydd Artiffisial hwn yn bodoli yn y Gymraeg, ond maen beth arall ei wneud yn agored ac yn hygyrch i bawb, meddai Prys. Gall y gwahaniaeth cynnil hwnnw fod y gwahaniaeth rhwng y dechnoleg hon yn cael ei defnyddio ai peidio.Defnyddio Modelau Deallusrwydd Artiffisial Sofran Gyda NVIDIA Nemotron, Microwasanaethau NIMGall y fframwaith a ddefnyddiwyd i ddatblygu model DU-LLM ar gyfer y Gymraeg fod yn sylfaen ar gyfer datblygu Deallusrwydd Artiffisial amlieithog ledled y byd.Mae modelau, data a ryseitiau Nemotron, syn cyrraedd y brig, ar gael yn gyhoeddus i ddatblygwyr er mwyn iddynt adeiladu modelau rhesymu sydd wediu teilwra i bron unrhyw iaith, parth a llif gwaith. Wediu pecynnu fel microgwasanaethau NVIDIA NIM, mae modelau Nemotron wediu hoptimeiddio ar gyfer cyfrifiadura cost-effeithiol a rhedeg yn unrhyw le, o liniadur ir cwmwl.Bydd mentrau Ewrop yn gallu rhedeg modelau agored, sofran ar y peiriant chwilio Perplexity wedii bweru gan Ddeallusrwydd Artiffisial.Dewch i ddechrau arni gyda NVIDIA Nemotron.
0 Kommentare
·0 Geteilt