Open Source AI Revolutie: GOSIM AI Parijs 2025

De AI-wereld heeft het afgelopen jaar een dramatische transformatie ondergaan, gedreven door de collaboratieve geest van open source ontwikkeling. Grote taalmodellen (LLM’s) zijn niet langer uitsluitend het domein van techgiganten, maar evolueren nu door gemeenschappelijke inspanningen en het open delen van kennis, wat alles beïnvloedt van infrastructuur tot algoritme-optimalisatie en -implementatie. Deze open source beweging versnelt de vooruitgang van AI, maakt het toegankelijker en democratiseert de mogelijkheid om bij te dragen aan de volgende generatie intelligente systemen.

Tegen deze achtergrond begon de GOSIM AI Parijs 2025 conferentie, mede georganiseerd door GOSIM, CSDN en 1ms.ai, op 6 mei in Parijs, Frankrijk. Het evenement dient als een cruciaal platform dat wereldwijde technologiebeoefenaars en onderzoekers verbindt om de nieuwste doorbraken en toekomstige richtingen in open source AI te verkennen.

De conferentie beschikt over een indrukwekkende line-up van meer dan 80 technologie-experts en wetenschappers van toonaangevende organisaties zoals Alibaba, Hugging Face, BAAI, MiniMax, Neo4j, Dify, MetaGPT, Zhipu AI, Eigent.AI, Docker, Inflow, Peking University, Fraunhofer, Oxford University en de Franse openLLM-gemeenschap. Belangrijke partners, waaronder Huawei, de All-China Youth Innovation and Entrepreneurship Association in Frankrijk, de Sino-French Artificial Intelligence Association, de Apache Software Foundation, de Eclipse Foundation, The Khronos Group, WasmEdgeRuntime, LF Generative AI Commons, de Linux Foundation Research, de OpenWallet Foundation, de Open Source Initiative (OSI), Software Heritage en K8SUG, nemen ook actief deel. De conferentie omvat meer dan 60 technische sessies die zich richten op kernthema’s zoals AI-modellen, infrastructuur, applicatie-implementatie en embodied intelligence, wat een uitgebreid beeld geeft van de evolutie van het open source ecosysteem en opkomende trends.

De symbiotische relatie tussen AI en Open Source

Michael Yuan, mede-oprichter van GOSIM, trapte de conferentie af met een keynote speech getiteld "Open Source heeft de achterstand ingehaald, wat nu?". Hij deelde zijn inzichten over de huidige staat en het toekomstige traject van open source AI, waarbij hij benadrukte dat het een cruciaal moment heeft bereikt.

"We voorspelden ooit dat het 5-10 jaar zou duren voordat open source closed-source modellen zou inhalen, maar het lijkt erop dat dit doel eerder dan gepland is bereikt," zei Yuan. Hij citeerde de recente release van Qwen 3 als voorbeeld, waarbij hij opmerkte dat open source modellen niet langer alleen met elkaar concurreren, maar nu rechtstreeks propriëtaire vlaggenschipmodellen uitdagen, en ze zelfs in bepaalde benchmarks overtreffen. Yuan suggereerde ook dat deze vooruitgang niet alleen te danken is aan open source ontwikkelingen, maar ook aan het feit dat closed-source ontwikkeling niet aan de verwachtingen voldoet en prestatieknelpunten tegenkomt. Open source modellen evolueren daarentegen snel, vertonen een steile prestatiegroeicurve en demonstreren een echt "inhaal"-fenomeen.

Deze observatie roept een fundamentele vraag op: Hoe ver zijn we verwijderd van het bereiken van Artificial General Intelligence (AGI)? Yuan gelooft dat de toekomst van AGI misschien niet ligt in een enkel, allesomvattend model, maar eerder in een netwerk van gespecialiseerde modellen, kennisbanken en tools die worden ingezet op private hardware of robotapparaten.

Hij legde verder uit dat de AI-architectuur verschuift van een gecentraliseerd naar een gedecentraliseerd paradigma. Hij benadrukte de transitie van OpenAI van de Completion API naar de nieuwe Responses API, die tot doel heeft een grootschalig intelligent agent platform te bouwen. Bijna 600.000 gebruikers en ontwikkelaars hebben zich al aangesloten bij deze transformatie en dragen bij aan de ontwikkeling van gedistribueerde AI-applicaties.

"De toekomst van AGI mag niet uitsluitend worden ontwikkeld door een enkel, goed gefinancierd bedrijf," verklaarde Yuan. "In plaats daarvan moet het worden opgebouwd door middel van wereldwijde samenwerking, waarbij een ecosysteemnetwerk wordt gecreëerd dat modellen, kennisbanken, robots en uitvoeringssystemen omvat."

Na de toespraak van Yuan gaf Daniel Goldscheider, Executive Director van de OpenWallet Foundation, een presentatie over "GDC Wallets & Credentials", waarbij hij zich richtte op het Global Digital Compact (GDC) project, aangenomen door de Algemene Vergadering van de Verenigde Naties. Hij legde uit dat de GDC twee kerndoelstellingen heeft:

  • Erkennen dat digitale technologieën ons leven en de maatschappelijke ontwikkeling ingrijpend hebben veranderd, wat zowel ongekende kansen als onvoorziene risico’s met zich meebrengt.
  • Benadrukken dat het realiseren van het volledige potentieel van digitale technologieën ten behoeve van de hele mensheid globale samenwerking vereist, waarbij barrières tussen landen, industrieën en zelfs de publieke en private sector worden afgebroken.

Op basis van dit gedeelde begrip heeft de GDC het initiatief "Global Digital Collaboration" voortgebracht, dat tot doel heeft echte samenwerking tussen overheden, bedrijven, non-profitorganisaties en andere belanghebbenden te bevorderen.

Bij het bespreken van de operationele aspecten benadrukte Goldscheider dat deze samenwerking niet wordt gedicteerd door een enkele organisatie, maar eerder een "gezamenlijke bijeenkomst"-aanpak hanteert, waarbij alle geïnteresseerde internationale organisaties, normalisatie-instellingen, open source gemeenschappen en intergouvernementele organisaties worden uitgenodigd om deel te nemen. Hij verduidelijkte dat dit geen "wie leidt wie"-project is, maar een gelijkwaardig samenwerkingsplatform waar elke partij een stem heeft en niemand belangrijker is dan een ander.

Hij legde verder uit dat de Global Digital Collaboration niet tot doel heeft direct standaarden of technologieën te ontwikkelen, maar eerder een dialoog te faciliteren tussen organisaties met verschillende achtergronden, waardoor ze hun perspectieven en behoeften kunnen presenteren om tot een consensus te komen. Vervolgens zal het specifieke standaarden- en technische werk worden bevorderd door de relevante gespecialiseerde instanties. Hij citeerde "digitale identiteit" en "biometrische technologie" als voorbeelden, waarbij hij opmerkte dat veel organisaties al op deze gebieden werken, en benadrukte de behoefte aan een neutraal platform om iedereen samen te brengen, duplicatie, conflicten en verspilling van middelen te voorkomen.

Vier gespecialiseerde forums: Een uitgebreide analyse van Open Source AI

De conferentie bevatte vier gespecialiseerde forums: AI-modellen, AI-infrastructuur, AI-applicaties en Embodied Intelligence. Deze forums behandelden cruciale onderwerpen, variërend van onderliggende architectuur tot applicatie-implementatie, en van modelmogelijkheden tot intelligente agentpraktijken. Elk forum was gastheer voor toonaangevende experts van wereldwijde ondernemingen en onderzoeksinstellingen, die zowel diepgaande analyses van de nieuwste technologische trends als het presenteren van rijke engineeringpraktijkcases boden, waarmee de uitgebreide integratie en evolutie van open source AI in meerdere velden werd gedemonstreerd.

Deconstructie van de onderliggende logica van AI Large Models

Het AI-modellen forum bracht experts van open source gemeenschappen en onderzoeksinstellingen samen om inzichten te delen over architecturale innovaties, open source samenwerking en ecosysteemevolutie op het gebied van grote modellen.

Guilherme Penedo, Machine Learning Research Engineer bij Hugging Face, presenteerde "Open-R1: A Fully Open Source Reproduction of DeepSeek-R1", waarbij hij de inspanningen van het Open-R1 project toonde om het DeepSeek-R1 model te repliceren, met een focus op het bevorderen van de openheid en standaardisatie van gegevens met betrekking tot inferentietaken. Guang Liu, Technology Leader van het Data Research Team bij Zhiyuan Research Institute, deelde "OpenSeek: Collaborative Innovation Towards the Next Generation of Large Models", waarbij hij het belang benadrukte van wereldwijde samenwerking bij het stimuleren van doorbraken in modelprestaties op algoritme-, data- en systeemniveau, met als doel de volgende generatie grote modellen te ontwikkelen die DeepSeek overtreffen.

Jason Li, Senior Vice President van CSDN, presenteerde "Decoding DeepSeek: Technological Innovation and its Impact on the AI Ecosystem", die een diepgaande analyse bood van DeepSeek’s innovaties in technische paradigma’s, modelarchitectuur en industriële ecologie, evenals de potentiële impact ervan op het wereldwijde AI-ecosysteem. Yiran Zhong, Senior Research Director bij MiniMax, presenteerde "Linear Future: The Evolution of Large Language Model Architectures", waarin hij het Lightning Attention mechanisme introduceerde, dat een potentieel alternatief biedt voor Transformer architecturen in termen van efficiëntie en prestaties. Shiwei Liu, Royal Society Newton International Fellow aan de Oxford University, besprak "The Depth Curse in Large Language Models", waarbij hij de afnemende bijdragen van diepe neurale netwerken naarmate modellen dieper worden, onderzocht en het gebruik van LayerNorm Scaling voorstelde om het Pre-LN mechanisme te verbeteren om het gebruik van diepe lagen en de algehele efficiëntie te verbeteren. Diego Rojas, Research Engineer bij Zhipu AI, wees er in "Code Large Language Models: Exploring Beyond Tokens" op dat huidige grote modellen, hoewel krachtig, nog steeds afhankelijk zijn van tokenisatie, wat inefficiënt is, en deelde nieuwe methoden voor het overslaan van tokenisatie om modellen sneller en sterker te maken. Nicolas Flores-Herr, Head of the Basic Models Team bij Fraunhofer IAIS, sloot het forum af met "How to Build Globally Competitive ‘European-Made’ Large Language Models?", waarbij hij benadrukte dat Europa data-, diversiteits- en regelgevingsuitdagingen overwint door middel van meertalige, open source en betrouwbare gelokaliseerde grote modelprojecten, om de volgende generatie AI te bouwen die de Europese waarden weerspiegelt.

De triade van AI-infrastructuur: gegevens, rekenkracht en algoritmische evolutie

Het AI-infrastructuur forum richtte zich op het bouwen van een meer open, efficiënte en inclusieve basis voor grote modellen en bracht toonaangevende experts van onderzoeksinstellingen en ondernemingen samen om deel te nemen aan diepgaande discussies over belangrijke kwesties zoals gegevens, rekenkracht en systeemarchitectuur.

Yonghua Lin, Vice President van Zhiyuan Research Institute (BAAI), lanceerde de Chinese Internet Corpus CCI 4.0 in "AI Open Source for Good: Inclusive Applications, Fair Data, and Universal Computing Power", die drie belangrijke datasets omvat: CCI4.0-M2-Base V1, CCI4.0-M2-CoT V1 en CCI4.0-M2-Extra V1. CCI4.0-M2-Base V1 heeft een datavolume van 35000GB, is tweetalig in Chinees en Engels, met 5000GB aan Chinese data, een 5-voudige toename in dataschaal in vergelijking met CCI3.0. CCI4.0-M2-CoT V1 bevat 450 miljoen reverse gesynthetiseerde menselijke denkbanendata voor het verbeteren van het redeneervermogen, met een totaal token aantal van 425B (425 miljard), bijna 20 keer de grootte van Cosmopedia (open sourced door Hugging Face), de grootste open source synthetische dataset die momenteel wereldwijd beschikbaar is.

Xiyuan Wang, Senior Software Engineer bij Huawei, introduceerde vervolgens hoe de CANN-architectuur AI-frameworks en Ascend-hardware verbindt in "Best Practices for Training and Inference Based on Ascend CANN", en optimale traininginferentie bereikt door het ondersteunen van ecosystemen zoals PyTorch en vLLM. Guillaume Blaquiere, Data Architect bij Carrefour, demonstreerde hoe serverloze grote modelinstanties kunnen worden ingezet die GPU’s ondersteunen via Google Cloud Run om de kosten te verlagen en de efficiëntie van het resourcegebruik te verbeteren in "Making Your LLM Serverless." Yinping Ma, Engineer bij Peking University, gaf een keynote speech over "Open Source Intelligent Computing Integrated Management and Scheduling Basic Software - SCOW and CraneSched," waarin de twee belangrijke open source basissoftware geïntroduceerd werden die door Peking University zijn ontwikkeld, SCOW en CraneSched, die in tientallen universiteiten en bedrijven in het hele land zijn ingezet en de uniforme management en high-performance scheduling van intelligente computerbronnen ondersteunen. Yaowei Zheng, PhD kandidaat aan de Beihang University, deelde het ontwerpconcept van de hybride controllerarchitectuur in het Verl-systeem in de speech "verl: A RLHF System Based on Hybrid Controller", en besprak de efficiëntievoordelen ervan in grootschalige reinforcement learning training. Greg Schoeninger, CEO van Oxen.ai, presenteerde de "Training Datasets and Infrastructure for DeepSeek-R1 Style Reinforcement Learning (GRPO)" en beschreef in detail het praktijkpad voor reinforcement learning trainingsprocessen voor redeneren LLM’s, inclusief datasetconstructie, infrastructuurbouw en lokale codegeneratiemodellen.

Van "Kan het worden gebruikt" tot "Wordt het goed gebruikt": AI-applicaties betreden de praktische fase

In het AI-applicaties forum deelden R&D-beoefenaars en technologiebeslissers van toonaangevende bedrijven een breed scala aan inzichten, waarbij ze de real-world implementatiepaden en toekomstige mogelijkheden van AI-applicaties, gedreven door grote modellen, toonden.

Yongbin Li, Chief Researcher bij Alibaba Tongyi Lab, deelde de nieuwste voortgang van Tongyi Lingma in technische evolutie en productapplicatie in "Tongyi Lingma: From Coding Copilot to Coding Agent." Dongjie Chen, Software Engineer bij Huawei, gaf een keynote speech over "Cangjie Magic: A New Choice for Developers in the Era of Large Models," waarin hij het AI grote model Agent ontwikkelingsframework introduceerde, gebaseerd op de Cangjie programmeertaal, dat de efficiëntie van ontwikkelaars bij het bouwen van intelligente HarmonyOS applicaties aanzienlijk kan verbeteren en een uitstekende ontwikkelingservaring kan opleveren. Xinrui Liu, Director van het LangGenius Developer Ecosystem, concentreerde zich op "Working Together, Technical Power Enabled by Dify," waarbij hij Dify’s open source ecosysteem en zijn rol in het versnellen van de popularisering van AI applicaties benadrukte.

Met betrekking tot de combinatie van AI en systeem engineering gaf Rik Arends, mede-oprichter van Makepad, een unieke presentatie: "Using Ambient Coding, Use AI to Create Rust UI for Mobile Devices, Web Pages, and Mixed Reality," waarin hij onderzocht hoe ambient coding kan worden gebruikt om een nieuw paradigma voor UI te bouwen. Christian Tzolov, R&D Software Engineer van het Broadcom Spring team, concentreerde zich op het demonstreren hoe AI modellen efficiënt kunnen worden geïntegreerd met bestaande systemen en bronnen via de MCP Java SDK en Spring AI MCP in "A Unified Paradigm for AI Integration Through MCP." Wenjing Chu, Senior Director van Technology Strategy bij Futurewei, verhoogde het perspectief verder in "The ‘T’ in MCP and A2A Stands for Trust," waarbij hij diepgaand analyseerde hoe echt betrouwbare AI systemen kunnen worden gebouwd in agent-based applicaties. Daarnaast introduceerde Hong-Thai Nguyen, Software Engineering Manager bij Cegid, hoe multi-agent bedrijfsprocessen kan hervormen en slimmere enterprise besluitvorming en operatie kan bereiken in combinatie met praktische scenario’s in de speech "Cegid Pulse: Multi-Agent Business Management Platform."

Wanneer grote modellen zijn uitgerust met "lichamen": Embodied Intelligence arriveert

Embodied intelligence wordt een van de meest uitdagende en veelbelovende ontwikkelingsrichtingen in het veld van AI. In dit forum namen veel van de top technische experts van de industrie deel aan diepgaande discussies rond het thema "embodied intelligence," waarbij ze hun praktische verkenningen in architecturaal ontwerp, model applicatie en scenario implementatie deelden.

Angelo Corsaro, CEO en CTO van ZettaScale, introduceerde hoe het Zenoh protocol de barrières tussen perceptie, uitvoering en cognitie in het intelligente robot tijdperk kan doorbreken in "Mind, Body, and Zenoh." Philipp Oppermann, Project Manager van het Dora project, presenteerde "Using Zenoh in Dora to Implement Distributed Data Flow," waarin hij de belangrijke applicatie van het Zenoh protocol in Dora uitlegde om gedistribueerde data flow te implementeren. James Yang, Professor aan de University of Science and Technology of China, gaf een speech over "Generation of Adversarial Safety-Critical Scenarios in Autonomous Driving," waarin hij introduceerde hoe de veiligheid van autonome rijtechnologie kan worden verbeterd door adversarial scenario’s te genereren om stabiliteit en betrouwbaarheid in complexe omgevingen te garanderen.

Daarnaast concentreerde Minglan Lin, een embodied intelligence onderzoeker bij het Zhiyuan Research Institute, zich ook op het onderwerp "RoboBrain: A Unified Brain Model for Robot Operation & RoboOS: A Hierarchical Collaboration Framework forRoboBrain and Robot Intelligent Agents," en demonstreerde hoe RoboBrain het intelligentieniveau van robots kan verbeteren en de belangrijke rol van RoboOS in robotsamenwerking. Ville Kuosmanen, oprichter van Voyage Robotics, gaf een prachtige speech over "Building Robot Applications with Open Source VLA Models," waarin hij uitlegde hoe open source VLA modellen kunnen worden gebruikt om sterke ondersteuning te bieden voor robot applicaties. Ten slotte besprak Huy Hoang Ha, een groot taalmodel onderzoeker bij Menlo Research, hoe ruimtelijk redeneren robots kan helpen complexe 2D en 3D omgevingen beter te begrijpen, waardoor hun operatie- en navigatiemogelijkheden worden verbeterd in de keynote speech van "Spatial Reasoning LLM: Enhancing Understanding of 2D and 3D to Support Robot Operation and Navigation."

Spotlight Talks: Verlichting van baanbrekende technologieën en innovatieve applicaties

De Spotlight Talks Day 1 bevatte boeiende presentaties van experts uit de industrie over baanbrekende technologieën en innovatieve applicaties. Dit segment diende als een platform voor technologiebeoefenaars uit verschillende domeinen om de nieuwste ontwikkelingen en praktische toepassingen van AI te bespreken. Cyril Moineau, Research Engineer bij de Franse Atomic Energy Commission (CEA), introduceerde hoe het Eclipse Aidge project de implementatie en optimalisatie van diepe neurale netwerken op embedded platforms ondersteunt door het aanbieden van een complete toolchain in de speech of “Aidge”, waardoor de ontwikkeling van edge intelligente systemen wordt versneld.

Paweł Kiszczak, Data Scientist bij Bielik.ai, deelde voor het eerst op deze conferentie de nieuwste voortgang van het Poolse native AI project Bielik en gaf een speech getiteld "The Rise of Bielik.AI," waarin hij vertelde hoe het project de constructie van een lokaal autonoom AI systeem bevordert door middel van open source taalmodellen en een compleet tool ecosysteem. Het Bielik project heeft niet alleen meerdere open source taalmodellen uitgebracht (parameter schalen die 1.5B, 4.5B en 11B dekken), maar heeft ook een end-to-end toolchain gecreëerd die datasets, evaluatie, training en fine-tuning omvat, en onderzoeksteams en ontwikkelaars ondersteunt bij het fine-tunen of continu pre-trainen op basis van basismodellen, wat de R&D drempel voor grote modellen aanzienlijk verlaagt en lokale technologische innovatiemogelijkheden stimuleert.

Hung-Ying Tai, Technical Lead van Second State, deelde "Running GenAI Models on Edge Devices with LlamaEdge," en demonstreerde LlamaEdge’s lichtgewicht en high-performance mogelijkheden in het implementeren van generatieve AI modellen op edge apparaten, waardoor een meer flexibele en efficiënte lokale redeneerervaring wordt geboden. Tianyu Chen, een PhD kandidaat aan de Peking University, introduceerde hoe het SAFE framework het probleem van schaarse trainingsdata verlicht door middel van het zelf-evolutiemechanisme van "data synthese-model fine-tuning," waardoor de efficiëntie en nauwkeurigheid van Rust code formele verificatie aanzienlijk wordt verbeterd in "Achieving Automatic Formal Verification for Rust Code Based on Self-Evolution Framework." Gautier Viaud, R&D Director bij Illuin Technology, deelde hoe het ColPali systeem, gebouwd door het team op basis van de ColBERT architectuur en PaliGemma model, de nauwkeurigheid en efficiëntie van document retrieval effectief verbetert door grafische en tekstuele informatie te combineren in de speech "ColPali: Efficient Document Retrieval Based on Visual Language Model." Ten slotte introduceerde Xiao Zhang, CEO van Dynamia.ai, hoe heterogene GPU bronnen beter kunnen worden beheerd en gepland met behulp van HAMi en de benutting en observeerbaarheid van AI infrastructuur kunnen worden verbeterd in "Unlocking the K8s Cluster Capabilities of Heterogeneous AI Infrastructure: Releasing the Power of HAMi."

Diverse interacties en hoogtepunten van de eerste dag

Naast de high-density keynote speeches bevatte de conferentie ook verschillende speciale units. De Closed-door Meeting unit concentreerde zich op strategische dialogen en diepgaande industrie-uitwisselingen om grensoverschrijdende samenwerking te bevorderen. De Showcase Sessions concentreerden zich op het presenteren van de nieuwste AI technologieproducten van ondernemingen en onderzoeksinstellingen, en trokken een groot aantal bezoekers aan om te stoppen en te communiceren. In de Competition Sessions concentreerden AI en robotica ontwikkelaars, engineers en robotica enthousiastelingen van over de hele wereld zich op de open source SO-ARM100 robotarm kit om praktische verkenning van imitatie leren uit te voeren. De kit integreert Hugging Face’s LeRobot framework en combineert NVIDIA’s AI en robotica technologieën om baanbrekende AI architecturen te ondersteunen, waaronder ACT en Diffusion Policy, en biedt deelnemers een solide technische basis. Deelnemers voerden praktische verkenningen uit in reële scenario’s om de effecten en haalbaarheid ervan uitgebreid te evalueren.

De Workshop Sessions namen het OpenHarmony ecosysteem als het kernthema en verkenden het open source project dat is geïncubeerd en geëxploiteerd door de Open Atom Open Source Foundation. OpenHarmony zet zich in voor het bouwen van een intelligent terminal besturingssysteem framework voor het tijdperk van all-scenario, all-connection en all-intelligence, het creëren van een open, geglobaliseerd en innovatief toonaangevend gedistribueerd besturingssysteem platform, het bedienen van diverse intelligente apparaten en het helpen van de ontwikkeling van de Internet of Everything industrie. Ter plaatse begrepen deelnemers diepgaand de kernvoordelen van OpenHarmony in multi-device samenwerking en lichtgewicht systeemontwerp door middel van een reeks praktische workshops, waarbij ze persoonlijk deelnamen aan belangrijke processen van driver ontwikkeling tot applicatie implementatie. Hands-on oefening helpt niet alleen ontwikkelaars om het "bottom-to-end" technische pad te openen, maar verbetert ook uitgebreid de ontwikkelings- en debuggingsmogelijkheden op systeemniveau.

De GOSIM AI Parijs 2025 Day 1 agenda is succesvol afgesloten, maar de opwinding gaat door. Morgen zal de conferentie verdergaan rond de vier belangrijkste forums van AI modellen, AI infrastructuur, AI applicaties en embodied intelligence, en zal de zeer verwachte PyTorch Day verwelkomen, met meer zwaargewicht gasten en first-line praktische content die eraan komt, dus blijf op de hoogte!