Velen zouden denken dat de AI -boem onmiddellijk een enorme vraag naar openbare webgegevens ontstak. Die modellen zijn immers getraind op gegevens, en veel daarvan is op internet. Het heeft enige waarheid, maar het is niet het hele verhaal.
Toen tools zoals Chatgpt de ene na de ander begonnen uit te rollen, waren de AI -modellen waarop ze waren gebaseerd al getraind. De gegevens zijn al uit verschillende bronnen verkregen en gebruikt om de tools te maken die aan de consumenten worden geïntroduceerd. Natuurlijk verbeterden deze tools altijd met behulp van aanvullende gegevens. Veel van deze gegevens werden echter verzameld door interacties met gebruikers of door de ontwikkelaars van deze tools via hun interne methoden. In het begin was dit genoeg.
Dingen begonnen te veranderen toen deze oplossingen de kracht van zoekmachines kregen om in realtime toegang te krijgen tot gegevens. De behoefte aan webgegevens omhooggeschoten. Zelfs dat was slechts de opwarming in vergelijking met de vraag naar webgegevens die nu versnellen.
Een brug over de kenniskloof
Vooruitgang snel in het tijdperk van AI. Maar als je terugdenkt aan het feit dat de eerste conversatie -AI -tools werden vrijgegeven, herinner je je misschien dat ze één merkbare zwakte hadden in vergelijking met traditionele zoekmachines – een kennisoversluiting.
Ze konden alleen weten wat er gebeurde tot de datum waarop ze werden vrijgegeven of voor het laatst bijgewerkt. Er was dus een kloof tussen de realiteit waarin je leefde en die laatste update. Tools zoals Chatgpt faalde u wanneer u recente gebeurtenissen wilde verkennen of bijgewerkte en relevante informatie wilde krijgen.
Dat veranderde met de vooruitgang van AI-aangedreven zoekmachines. Om relevante en betrouwbare generatieve zoekresultaten te bieden, moeten deze tools toegang hebben tot realtime online gegevens. Er was een brug nodig tussen de modellen en internet, waarover informatie onmiddellijk kon reizen.
Veel onderdelen, zoals enorme proxy -netwerken, schrapende API’s en andere tools voor naadloze integratie en open toegang tot websites, combineren om de infrastructuur van de webgegevens te creëren – die noodzakelijke brug.
En dat is nog maar het begin. De Impact van generatief zoeken Over hoe we navigeren op het internet zal vrijwel zeker de beste zijn sinds Google Search in 1998 arriveerde. Terwijl we getuige zijn van de zich ontvouwende, zijn bedrijven, van gevestigde klassieke zoekmachines tot opkomende en hongerige startups, racen om hun ruimte in de toekomst van zoeken uit te snijden. Die race hangt grotendeels af van hoe betrouwbaar een brug die ze lopen.
AI gaat multimodaal
De AI -modellen waarmee we het meest bekend zijn, werken in een beperkte ruimte. Chatbots kunnen op tekst gebaseerde prompts lezen en reageren. Zelfs de meer geavanceerde tools die afbeeldingen kunnen genereren op basis van natuurlijke taalprompts, hebben een vrij strikte limieten.
Een natuurlijke volgende stap in AI -evolutie, multimodale AI Gebruikt meerdere soorten gegevens om meer veelzijdige, inzichtelijke en goed gebaseerde uitgangen te bieden. Training multimodale AI vereist grote hoeveelheden video, audio, tekst, spraak en andere gegevenstypen. Deze modellen zullen ook AI-gebaseerde videopideo op het volgende niveau mogelijk maken, wat resulteert in hogere kwaliteit en interne consistentie van gegenereerde beelden.
Naarmate de concurrentie intensiveert met nieuwe spelers zoals Diepeek Opkomende plotseling en schijnbaar uit het niets, is de vraag welke bedrijven voorop lopen in het ontwikkelen van multimodale tools achter gesloten deuren. Wat ze ook zijn, die bedrijven hebben het schrapen van gegevens nodig, die zelfs in het tijdperk van big data ongekend zijn.
Om effectieve multimodale tools te maken, met name videogeratoren, moeten ontwikkelaars veel videogegevens schrapen. Het schrapen van video’s is niet zoals het schrapen van de HTML van tekstgebaseerde webpagina’s. De grootte en complexiteit van de taak zijn compleet anders. Ten eerste zijn videogegevenssets duizenden keren groter dan HTML -gegevenssets. Ten tweede moet je de beelden, het geluid, de transcripties – alle aspecten van een video krijgen om je tool concurrerend te maken in de exploderende markt.
Bedrijven hebben dus een gestage stroom van gegevens nodig die zowel enorm als divers is. Afgezien van de uitgestrektheid, moet de vereiste infrastructuur geavanceerde gegevensverwerkingsmogelijkheden bezitten om deze stroom zonder fouten af te handelen. Sommige bedrijven kunnen kiezen voor kant-en-klare gegevenssets of oplossingen om zelfs de geringste vertragingen te voorkomen die erg duur kunnen zijn in de snelle markt.
Multimodal ontmoet meertalige
De vraag naar betrouwbare meertalige AI is enorm. Het kan het leven een stuk eenvoudiger maken door taalbarrières in alledaagse situaties te verwijderen, evenals stroomlijnen Internationale bedrijfsactiviteiten. Meest Grote taalmodellen zijn getraind om voornamelijk in het Engels te werken, en terwijl ze verbeteren, is er nog een lange weg te gaan.
Dit is een ander concurrentiegebied dat vooral aantrekkelijk is voor AI-startups die niet kunnen concurreren op de dominante Engelse AI-modelmarkten. Het internet spreekt alle talen en kijkt naar een andere golf van gegevensextractie door ontwikkelaars die racen om meertalige of niet-Engelse taal te bouwen die prioriteiten stellende tools.
En omdat dit al aanzienlijke vraagparen met de vraag naar videoplede in andere talen, kan men gemakkelijk zien waarom eerder slechts een warming -up voor AI was. Veel in de AI -ontwikkeling werd uitgesteld voor later, nadat de basis kan worden beheerst. Dat is later aangekomen. Nu wil AI alles in alle media maken en alle talen spreken. Om dit te bereiken, moeten veel onaangeboorde gegevens nog worden geëxtraheerd.
Groenblijvende gegevens
Samenvattend, zelfs in het tijdperk waarin het schrapen van webgegevens cruciaal is om de technologische landschappen van de toekomst te domineren, moeten veel gegevens nog worden geschraapt. Degenen met de tools om die gegevens op de eerste plaats te krijgen, zullen zich positioneren om de volgende fase van AI -ontwikkeling te leiden.
Zelfs nadat multimodale tools van de volgende generatie zijn getraind en vrijgegeven, en de behoefte aan videogegevenssets voor trainingsafgiften, zullen er altijd een soort gegevens zijn die veel vraagt-realtime gegevens. De beste AI -tools zijn diegenen die relevante informatie kunnen verstrekken en de huidige context kunnen begrijpen.
Dus wat AI -ontwikkelaars nog meer nodig hebben dan grote gegevenssets die uiteindelijk zullen ouder worden, is de integratie met het web dat een gestage gegevensstroom mogelijk maakt, elke seconde nieuw gegenereerd. Het opbouwen van die integratie en het betrouwbaar maken is de uitdaging die de toekomst van AI -markten zal bepalen.