Google heeft gelanceerd Een nieuwe functie in zijn Gemini API genaamd “Impliciet Caching”, waarvan het bedrijf beweert dat ze de kosten met 75% kunnen verlagen voor externe ontwikkelaars die zijn nieuwste AI-modellen gebruiken, Gemini 2.5 Pro en 2.5 Flash.
De functie maakt automatisch kostenbesparingen mogelijk wanneer een Gemini API -verzoek naar een model een cache raakt, waardoor de behoefte aan handmatige configuratie wordt geëlimineerd die vereist is door de vorige expliciete cachingmethode. Volgens Google wordt impliciete caching geactiveerd wanneer een verzoek een gemeenschappelijk voorvoegsel deelt met een eerder verzoek, en de vereiste minimale snelle tokentelling is 1.024 voor 2,5 flits en 2.048 voor 2.5 Pro.
Logan Kilpatrick, een lid van het Gemini -team, aangekondigd De lancering op 8 mei 2025, waarin staat dat de functie aanzienlijke kostenbesparingen kan opleveren voor ontwikkelaars. Google beveelt ontwikkelaars aan dat ontwikkelaars de repetitieve context plaatsen aan het begin van verzoeken en aan het einde wijzigen om de context te wijzigen om de kansen op impliciete cache -hits te vergroten.
Caching is een algemeen toegepaste praktijk in de AI-industrie die vaak toegankelijk is of vooraf berekende gegevens hergebruikt om de computervereisten en -kosten te verminderen. De eerdere expliciete cachingmethode van Google vereiste dat ontwikkelaars handmatig hoogfrequente aanwijzingen moesten definiëren, wat vaak resulteerde in extra werk en soms verrassend grote API-rekeningen voor sommige gebruikers.
Sommige ontwikkelaars hadden ontevredenheid uitgesproken over de expliciete caching -implementatie voor Gemini 2.5 Pro, waardoor het Gemini -team zich verontschuldigde en beloofde wijzigingen aan te brengen. De nieuwe impliciete cachingfunctie pakt deze zorgen aan door het cachingproces te automatiseren en kostenbesparingen door te geven aan ontwikkelaars wanneer een cache -hit optreedt.
Hoewel Google beweert dat impliciete caching 75% kostenbesparingen kan opleveren, heeft het bedrijf geen verificatie van derden verstrekt van de effectiviteit van de functie. Als zodanig kunnen de werkelijke kostenbesparingen variëren, afhankelijk van hoe ontwikkelaars de functie gebruiken.