Antropisch heeft gelanceerd Claude 3.7, ’s werelds eerste AI -model dat in staat is om standaard output of een controleerbare hoeveelheid “redeneren” te produceren om complexe problemen aan te pakken. Dit hybride model is ontworpen om de interactie tussen gebruikers en ontwikkelaar te verbeteren door een evenwicht tussen instinctieve reacties en methodische redenering mogelijk te maken.
Anthropic onthult Claude 3.7: het eerste hybride redeneren AI -model

Michael Gerstenhaber, productleider bij Anthropic, verklaarde: “De [user] Heeft veel controle over het gedrag – hoe lang het denkt, en kan redeneren en intelligentie met tijd en budget ruilen. ” Claude 3.7 introduceert een “scratchpad” -functie die het redeneringsproces van het model weergeeft en inspiratie haalt uit het populaire Chinese AI -model Diepeek. Deze functionaliteit helpt gebruikers bij het begrijpen van de benadering van het model om probleemoplossing te oplossen, waardoor snelle aanpassingen worden vergemakkelijkt.
Dianne Penn, productleider van onderzoek bij Anthropic, benadrukte de effectiviteit van de scratchpad in combinatie met het verstelbare redeneermogelijkheden. Gebruikers kunnen het model instrueren om meer tijd toe te wijzen voor probleemoplossing als de eerste pogingen de gewenste afbraak niet opleveren.

De hybride structuur van Claude 3.7 onderscheidt deze van concurrenten. Terwijl OpenAI een redeneermodel heeft uitgebracht genaamd O1 in september 2024, en later een robuustere versie met de naam O3, vereisen beide dat gebruikers schakelen tussen modellen om toegang te krijgen tot redeneerfuncties. Claude 3.7 van Anthropic zorgt voor naadloze schakelen tussen conventionele reacties en uitgebreide redenering, een aanzienlijk voordeel.
Het hybride model sluit aan bij de redeneerkaders die worden beschreven door Nobelprijs-winnende econoom Daniel Kahneman in zijn boek ‘Thinking, Fast and Slow’, met zowel instinctieve als opzettelijke cognitieve processen. Standaardmodellen, zoals grote taalmodellen (LLMS), genereren meestal directe reacties, maar kunnen wankelen in taken die een grondige redenering vereisen, zoals rekenkundige berekeningen.
Om de capaciteiten van Claude 3.7 te verbeteren, heeft Anthropic aangebrachte versterking leren om het model te trainen met aanvullende gegevens gericht op zakelijke toepassingen zoals codering en juridische vragen. Penn merkte op dat “de dingen die we verbeteringen hebben aangebracht, zijn […] Technische onderwerpen of onderwerpen die lang redeneren vereisen. ” Het model heeft Openai’s O1 beter gepresteerd in specifieke kaders zoals Swe-Bench bij het aanpakken van complexe coderingsuitdagingen.
Claude Ai kan nu uw schrijfstijl perfect spiegelen
Claude -code
Het bedrijf heeft Claude Code geïntroduceerd, een nieuwe tool die is ontworpen om te helpen bij AI-gedreven coderingstaken, die goed presteert in complexe scenario’s. “Het model is al goed in codering,” voegde Penn eraan toe. ‘[But] Extra denken zou goed zijn voor gevallen die mogelijk een zeer complexe planning vereisen – zeg dat u naar een extreem grote codebasis voor een bedrijf kijkt. “

Claude 3.7 Sonnet is beschikbaar in alle Claude -plannen – Free, Pro, Team en Enterprise – evenals door de antropische API, Amazon Bedrock en Google Cloud’s Vertex AI. Het model handhaaft dezelfde prijsstructuur als zijn voorgangers: $ 3 per miljoen input tokens en $ 15 per miljoen output tokens, inclusief het denken van tokens.
Anthropic heeft Claude 3.7 -sonnet ontwikkeld met een filosofie die redenering integreert als een kerncomponent van het model. Het functioneert zowel als een verbeterde gewone LLM als een redeneermodel, waardoor gebruikers kunnen kiezen wanneer ze directe antwoorden of langere, meer reflecterende antwoorden willen. In de uitgebreide denkmodus verfijnt Claude 3.7 zijn antwoorden, waardoor de prestaties worden verbeterd op taken in wiskunde, natuurkunde, instructie-volgen en coderen.
Met behulp van Claude 3.7 Sonnet via de API kunnen gebruikers hun “denkende” budget beheersen door een maximaal aantal tokens op te geven. Deze flexibiliteit stelt gebruikers in staat om snelheid te prioriteren versus de kwaliteit van het resultaat.
De recente evaluaties van Claude duiden op leiderschap in coderingsmogelijkheden op meerdere platforms. Cursor herkende Claude als best-in-class voor real-world coderingstaken, met vooruitgang bij het beheren van ingewikkelde codebases. Cognition rapporteerde superieure prestaties in het plannen van code -wijzigingen, terwijl Vercel de nauwkeurigheid van het navigeren van complexe agentworkflows opmerkte. Replit heeft Claude effectief gebruikt voor de ontwikkeling van geavanceerde webtoepassingen, en tests uitgevoerd door Canva hebben aangetoond dat Claude consequent productie-klare code levert met een verbeterde ontwerpkwaliteit en aanzienlijk minder fouten.
Claude -code, momenteel in beperkt onderzoek preview, functioneert als een collaboratieve tool die kan lezen, code bewerken, tests uitvoeren en met GitHub interageren, waardoor het coderingsproces wordt gestroomlijnd. Vroege tests hebben aangetoond dat Claude -code taken kan uitvoeren in een enkele sessie die meestal uitgebreide handmatige inspanningen vereisen. Toekomstige verbeteringen zullen zich richten op de betrouwbaarheid van het gereedschap, lange opdrachtondersteuning en verbeterde prestaties.
Anthropic heeft zijn toewijding benadrukt om Claude 3.7 -sonnet te ontwikkelen met een focus op beveiliging, veiligheid en betrouwbaarheid. Claude 3.7 heeft waarneembaar onderscheid gemaakt tussen goedaardige en schadelijke verzoeken, waardoor een vermindering van 45% in onnodige weigering is behaald in vergelijking met zijn voorganger. De bijbehorende systeemkaartdetails veiligheidsevaluaties die andere AI -onderzoeksinitiatieven kunnen ten goede komen en opkomende risico’s, waaronder snelle injectieaanvallen.
Claude 3.7 Sonnet en Claude -code vertegenwoordigen belangrijke vooruitgang ten opzichte van AI -systemen die de menselijke mogelijkheden effectief kunnen ondersteunen door diep redenering en autonome samenwerking te integreren.
Uitgelichte afbeeldingskrediet: Anthropic