- Microsoft esittelee kolme sisäistä tekoälyn perustusmallia transkriptioon, äänen generointiin ja kuvien luomiseen vähentääkseen riippuvuutta OpenAI:sta.
- MAI-Transcribe-1 tukee 25 kieltä ja toimii noin 2.5 kertaa nopeammin kuin Microsoftin nykyinen Azure Fast -transkriptiotarjonta.
- MAI-Voice-1 pystyy tuottamaan 60 sekuntia muokattavaa ääntä noin sekunnissa, kun taas MAI-Image-2 on suunnattu edistyneeseen kuvien ja videoiden tuottamiseen.
- Mallit integroituvat Microsoft Foundryyn, MAI Playgroundiin, Teamsiin ja Azureen, ja niillä on kilpailukykyinen hinnoittelu ja tiekartta kohti laajoja eturintamassa olevia malleja vuoteen 2027 mennessä.

Microsoft ottaa selkeän askeleen kohti suurempi autonomia tekoälyssä ottamalla käyttöön kolme omaa perusmallia, jotka on suunnattu transkriptioon, puheen generointiin ja kuvan luontiin. Tämä viestii siitä, että yritys haluaa syvemmän, multimodaalisen tekoälypinon, jota se täysin hallitsee, vaikka se pitääkin yllä tiivistä kaupallista liittoa OpenAI:n kanssa.
Nämä uudet järjestelmät, jotka on kehitetty Microsoft AI / MAI Superintelligence tiimit on suunniteltu kytkeytymään suoraan tuotteita, kuten Teams ja Azure sekä sisäisiin kokeilualustoihin. Käytännössä Microsoft luo pohjaa pitkän aikavälin strategialle, jossa sen omat mallit kattavat kasvavan osan jokapäiväisistä työkuormista, varaamalla ulkoisia malleja, kuten OpenAI:n malleja, tapauksiin, joissa ne tuovat selkeää, erottuvaa arvoa.
Kolme Microsoftin rakentamaa perusmallia transkriptiolle, äänelle ja kuville
Lanseeraus keskittyy kolmeen ydinmalliin: MAI-Transcribe-1 puheesta tekstiksi -muunninta varten MAI-Ääni-1 tekstistä puheeksi -toimintoa ja MAI-kuva-2 visuaalista luomista varten. Yhdessä ne muodostavat ensimmäisen, hyvin näkyvän kerroksen sisäisestä multimodaalinen tekoälypino joka pystyy käsittelemään tekstiä, ääntä ja kuvia Microsoftin ekosysteemissä.
Sen sijaan, että Microsoft luottaisi pelkästään suuriin, yleiskäyttöisiin malleihin, se panostaa tehtäväkeskeiset järjestelmät, jotka ovat halvempia ja nopeampia yleisiin yrityskäyttötapauksiin. Tämä lähestymistapa on erityisen tärkeä, koska Copilot-käyttäjien ja tekoälypohjaisten ominaisuuksien määrä Officessa, Teamsissa ja Azuressa kasvaa jatkuvasti, ja kustannukset muutoin skaalautuisivat lähes lineaarisesti API-käytön myötä.
Perustusmallit Tämän tyyppisiä työkaluja koulutetaan suurilla ja monimuotoisilla tietojoukoilla, jotta niitä voidaan myöhemmin soveltaa monenlaisiin skenaarioihin. Tässä tapauksessa se tarkoittaa kaikenlaista puhelinkeskusten transkriptiosta ja kokousyhteenvedoista synteettisiin ääniin, esteettömyystyökaluihin ja automatisoituihin sisällöntuotantoprosesseihin.
MAI-Transcribe-1: nopeampi, monikielinen puheesta tekstiksi 25 kielellä
MAI-Transcribe-1 on Microsoftin uusi puheesta tekstiksi -moottori ja yksi tämän käyttöönoton keskeisistä osista. Malli tukee transkriptiota 25 eri kielillä ja sitä on sisäisesti vertailtu suunnilleen 2.5 kertaa nopeampi kuin yrityksen nykyinen Azure Fast -transkriptiotarjonta, joka on ollut vertailukohtana sen nykyisessä salkussa.
Tämä suorituskyvyn nousu on tärkeää, koska transkriptiotyömäärät ovat erittäin herkkiä latenssille, erityisesti reaaliaikaisissa tilanteissa, kuten live-tekstityksissä, asiakastuessa tai hybridi-kokouksissa. Laajempi kielivalikoima on myös linjassa Microsoftin globaalin jalanjäljen kanssa, mikä helpottaa monikansallisten asiakkaiden standardointia yhteen toimittajaan alueellisten työkalujen sekoittamisen sijaan.
Tuotteen näkökulmasta Microsoft aikoo kytkeä MAI-Transcribe-1:n suoraan ... Microsoft-tiimit käsitellä kokousten litterointeja ja reaaliaikaisia tekstityksiä. Ajan myötä saman moottorin odotetaan ilmestyvän muiden tuottavuustyökalujen konepeltiin, jotta käyttäjät näkevät paremman nopeuden ja alhaisemmat kustannukset ilman, että välttämättä huomaa brändimuutosta.
Hinnoittelu on ollut aggressiivista: MAI-Transcribe-1 alkaa noin 0.36 dollaria tunnissa prosessoitua ääntä, jonka tarkoituksena on alittaa sekä Googlen että OpenAI:n vertailukelpoiset tarjoukset samalla, kun se toimii edelleen Microsoftin omalla pilvi-infrastruktuurilla.
MAI-Voice-1: erittäin nopea tekstistä puheeksi mukautetuilla äänillä
Äänentuotannon puolella, MAI-Ääni-1 on Microsoftin uusi malli tekstin muuttaminen puheeksiYrityksen mukaan se voi tuottaa noin 60 sekuntia ääntä noin yhden sekunnin käsittelyajalla, mikä on huomattava harppaus käyttötapauksissa, joissa reagointikyky on kriittisen tärkeää.
Raakan nopeuden lisäksi keskeinen lupaus on tuki mukautetut, brändiin sopivat äänetOrganisaatiot pystyvät määrittelemään ääniä, jotka vastaavat identiteettiään tai tiettyjä käyttötapauksiaan, tukilinjoista ja keskusteluagenteista koulutusmateriaaleihin, podcasteihin ja esteettömyysominaisuuksiin. Tämä hallinnan taso on yhä tärkeämpää, kun synteettinen puhe yleistyy ja kuuntelijat vaativat yhä enemmän sävyä ja selkeyttä.
Microsoft tähtää MAI-Voice-1:een suoraan kehittäjät ja yritykset, jotka rakentavat äänipainotteisia tuotteita: puhelinkeskukset, sovellusavustajat, kieltenoppimistyökalut, media-alustat tai mikä tahansa palvelu, joka tarvitsee skaalautuvaa kerrontaa. Hinnat alkaen noin 22 dollaria miljoonaa merkkiä kohdenmallin on tarkoitus olla taloudellisesti kannattava sekä pienillä että erittäin suurilla volyymeilla.
Infrastruktuurin näkökulmasta MAI-Voice-1 tarjotaan seuraavan kautta: Azure-rajapinnat, Microsoft Foundry ja MAI Playground, jolloin tiimit testaavat ääniä nopeasti ja siirtyvät sitten tuotantoon vaihtamatta ympäristöjä. Ajatuksena on virtaviivaistaa koko polku kokeilusta käyttöönottoon Microsoftin ratkaisupinossa.
MAI-Image-2: kuvien ja videoiden generointi integroituna Microsoftin ohjelmistopinoon
Kolmas malli, MAI-kuva-2, keskittyy kuvien (ja joissakin kuvauksissa videoiden) luominen tekstikehotteistaVaikka yritys ei ole paljastanut kaikkia teknisiä yksityiskohtia, se asemoi mallin visuaalisena vastineena teksti- ja äänijärjestelmilleen, joiden tarkoituksena on automatisoida markkinointimateriaalien, tuotekuvien, kuvakäsikirjoitusten ja muun median luominen.
Mielenkiintoista kyllä, MAI-Image-2 ilmestyi ensimmäisen kerran hiljaisemmin vuonna MAI-leikkikenttä, Microsoftin suurten mallien kokeiluympäristö, maaliskuun puolivälissä. Nykyinen ilmoitus virallistaa sen roolin osana laajempaa Valimo ja Azure ekosysteemi, jossa yritykset voivat käyttää sitä vakiokomponenttina pelkän tutkimusdemon sijaan.
Hinnoittelu on jälleen kilpailukykyistä: yritys mainitsee lähtöpisteen noin 5 dollaria miljoonaa tekstinsyöttötokenia kohden ja ympärillä 33 dollaria miljoonaa tuotostokenia kohden luoduista kuvistaNämä luvut on muotoiltu kilpailevien palveluntarjoajien vastaavien tasojen tasoisiksi tai niitä alhaisemmiksi, ja ne hyötyvät Microsoftin yritystason tietoturva- ja vaatimustenmukaisuusratkaisuista.
Käyttötapaukset vaihtelevat automatisoidut luovat työnkulut ja personoiduista markkinointivisuaaleista tuotesuunnittelun nopeaan prototyyppien luomiseen. Monille Azureen jo standardoiduille asiakkaille tärkein myyntivaltti on se, että he voivat kokeilla kuvien luomista ilman, että he ottavat mukaan ulkoista toimittajaa.
Integraatio Azuren, Foundryn, MAI Playgroundin ja Microsoft 365:n välillä
Tämän lanseerauksen määrittelevä piirre on se, kuinka tiiviisti uudet mallit on kudottu yhteen Microsoftin nykyiset pilvi- ja tuottavuusalustatKaikki kolme järjestelmää – MAI-Transcribe-1, MAI-Voice-1 ja MAI-Image-2 – otetaan käyttöön Microsoft Foundry, yrityksen ympäristö perustusmallien käyttämiseen ja skaalaamiseen.
Kehittäjät voivat aloittaa MAI-leikkikenttä, jossa samat mallit esitellään kokeellisemmassa käyttöliittymässä. Tämän asetelman tarkoituksena on madaltaa kynnystä tiimeille, jotka haluavat kokeilla ominaisuuksia, kuten transkriptiota, synteettisiä ääniä tai visuaalista luontia, sitoutumatta heti täyteen integraatioon.
Tuotepuolella Microsoft viittaa jo siihen, että Microsoft-tiimit varhaisena hyötyjänä. MAI-Transcribe-1 on tarkoitettu kokousten litterointien ja tekstitysten tuottamiseen, kun taas MAI-Voice-1:n ja MAI-Image-2:n odotetaan tulevan esiin ajan myötä eri yhteyksissä. Copilot- ja Microsoft 365 -kokemukset, vaikka loppukäyttäjät eivät ehkä näkisikään mallin brändäystä erikseen.
Yrityksille lupaus on yksittäinen, yhtenäinen pino jossa transkriptio, ääni ja kuvat toimivat kielimallien, datapalveluiden ja analytiikan rinnalla Azuressa. Tämä voisi yksinkertaistaa vaatimustenmukaisuutta, tietoturvatarkastuksia ja toimittajien hallintaa verrattuna useiden ulkoisten tekoälypalveluntarjoajien yhdistämiseen.
Hinnoittelustrategia ja kilpailu OpenAI:n ja Googlen kanssa
Teknisten eritelmien ohella Microsoft painottaa paljon hinnoittelukilpailukykyYritys asettaa nämä mallit avoimesti vaihtoehtoina, jotka voivat vastata tai alittaa vastaavien tarjousten hinnat. OpenAI ja Google, erityisesti jatkuvaan, suurten määrien käyttöön.
Julkaistut hintapisteet – 0.36 dollaria äänituntia kohden MAI-Transcribe-1:lle 22 dollaria miljoonaa merkkiä kohden MAI-Voice-1:lle ja 5 dollaria / 33 dollaria miljoonaa tokenia kohden MAI-Image-2:n rakenne – eivät ole vain teknisiä yksityiskohtia. Ne ovat osa laajempaa viestiä, jonka Microsoft haluaa nähdä kustannustehokas ja kokonaisvaltainen generatiivisen tekoälyn tarjoaja eikä vain kumppanimallien jälleenmyyjä.
Markkinoilla, joilla yhä useammat organisaatiot sisällyttävät tekoälyn päivittäiseen toimintaansa, pyyntökohtaisesta hinnasta voi nopeasti tulla strateginen muuttujaOmistamalla omat mallinsa Microsoft voi hienosäätää laskentakustannusten, mallin monimutkaisuuden ja käyttäjähinnoittelun välistä kompromissia sen sijaan, että maksaisi suuria lisähintoja ulkoisille palveluntarjoajille.
Myös signaalivaikutus on olemassa: korostamalla omia vertailuarvojaan ja hinnastojaan Microsoft käytännössä kertoo asiakkaille, että heidän ei enää tarvitse käyttää oletuksena kolmannen osapuolen malleja ydinkuormien, kuten transkription, puheen ja kuvien, osalta, jos he ovat jo sitoutuneet Azureen.
Mustafa Suleyman ja "ihmiskeskeinen" AI-näkemys
Kolme uutta mallia tulevat tiimeiltä, jotka on ryhmitelty alle Microsoft AI / MAI Superintelligence, johdolla mustafa suleman, joka nyt johtaa Microsoftin tekoälyä. Suleyman, joka tunnetaan aiemmista rooleistaan tekoälyalalla, on julkisesti hahmotellut visiotaan, jota hän kuvailee nimellä "humanistinen tekoäly" tai ihmiskeskeistä tekoälyä.
Microsoftin lanseeraukseen liittyvässä viestinnässä Suleyman korostaa, että nämä mallit on suunniteltu heijastaa sitä, miten ihmiset todellisuudessa kommunikoivat, priorisointi käytännön hyödyllisyys ja turvallisuusHänen sanojensa mukaan tavoitteena on luoda järjestelmiä, jotka ovat vähemmän abstrakteja tutkimusprojekteja ja enemmän työkaluja, jotka sopivat jokapäiväisiin työnkulkuihin työssä ja kotona.
Hän on myös ehdottanut, että nykyinen mallikolmikko on vasta laajemman portfolion alkuMicrosoft aikoo ottaa käyttöön lisää perusmalleja Foundryn kautta ja suoraan tuotteiden sisällä laajentaen vähitellen sisäisiä ominaisuuksiaan puheen ja kuvien ulkopuolelle kattamaan useampia modaliteettia ja erikoistuneempia tehtäviä.
Tuo etenemissuunnitelma korostaa Microsoftin aikomusta tulla nähdyksi paitsi muiden ihmisten tekoälyn alustana, myös omien edistyneiden mallien rakentajana, jotka voivat toimia pitkäaikaisten kumppaneiden, kuten OpenAI:n, tarjousten rinnalla.
Uudelleenkalibroitu suhde OpenAI:n kanssa ja vuoden 2027 rajaseudun mallitavoite
Yksi tämän strategian herkimmistä puolista on se, miten se liittyy Microsoftin korkean profiilin kumppanuus OpenAI:n kanssaYritykset ovat edelleen läheisesti sidoksissa toisiinsa: Microsoft on investoinut yli $ 13 miljardia OpenAI:ssa, isännöi mallejaan Azuressa ja integroi järjestelmiä, kuten GPT:n, tuotteisiin, kuten Copilot.
Viimeaikaiset raportit kuitenkin viittaavat siihen, että suhteen uudelleenneuvottelu Tämä antaa Microsoftille enemmän tilaa ajaa omaa tekoälytutkimustaan ja -tuotelinjojaan rinnakkain. Suleyman on kuvannut tätä muutosta luonnollisena kehityksenä, ei murtumana – pikemminkin kuin yritys suunnittelisi osan omista siruistaan ja ostaisi silti ulkoisilta toimittajilta.
Bloombergin ja muiden lähteiden mukaan Microsoft pyrkii saamaan omat laajamittaiset, rajaseudun tason mallinsa käyttöön noin vuoteen 2027 mennessäUudet järjestelmät ovat hieman tuon tavoitteen yläpuolella: niitä ei ole vielä asemoitu yleiskäyttöisiksi, huippuluokan kielimalleiksi, vaan pikemminkin erikoiskomponentteja, jotka vähentävät riippuvuutta kumppanirajapinnoista päivittäisissä työkuormissa.
Käytännössä tämä tarkoittaa, että Microsoft voi jatkaa OpenAI-mallien, kuten GPT-5.4:n, käyttöä siellä missä ne ovat järkeviä, samalla vähitellen vaihtamalla omia mallejaan aina kun kustannus-laatusuhde tai strategiset näkökohdat suosivat sisäistä teknologiaa. Käyttäjät saattavat yksinkertaisesti huomata, että ominaisuudet nopeutuvat tai halpenevat, kun nämä siirtymät tapahtuvat taustalla.
Laajemmilla tekoälymarkkinoilla tämä kaksijakoinen kehitys korostaa selkeää trendiä: suuret teknologiayritykset pyrkivät tasapaino yhteistyön ja omavaraisuuden välillä, hyödyntäen liittoutumia nopeaan etenemiseen, mutta rakentaen omia valmiuksiaan välttääkseen pitkän aikavälin sitoutumisen yhteen toimittajaan.
Näillä kolmella mallilla Microsoft käytännössä asettaa etulyöntiaseman: se haluaa kilpailla tekoälypinon useilla tasoilla – infrastruktuurista ja työkaluista itse perusmalleihin – jättäen kuitenkin tilaa kumppaneille, kuten OpenAI:lle, joilla on ainutlaatuisia vahvuuksia. Asiakkaille tämä voi tarkoittaa enemmän vaihtoehtoja, terävämpää hinnoittelua ja asteittaista siirtymistä Microsoft-brändättyyn tekoälyyn, joka tukee tuttuja tuotteita ja palveluita.
