Szumózó macskákkal a disztópia felé?

Meddig jutottak a szöveg-kép generatív algoritmusok? Mit jelent ez a társadalom és a vállalatok számára? Bejegyzésünkben áttekintjük az elmúlt hetekben nagy publicitást kapott DALL-E 2-t és Imagen-t és röviden kitérünk arra, hogy hogyan szolgálhatják az algoritmusok pozitívan a személyes adatok védelmét.

Google Imagen és OpenAI Dall-E 2 képgenerátorok

Az elmúlt hetekben közösségi platformokon nagy publicitást kaptak az OpenAI és a Google Brain szöveg-kép mélytanuló algoritmusai, a DALL-E 2 és az Imagen által előállított képek. A technológia nem új, de idén ért el olyan szintre, hogy nagyszámú logótervezőt, grafikust és szabadalmi jogászt töltsön el egzisztenciális félelemmel. A tartalomgyártás legkiszámíthatatlanabb és sokszor legköltségesebb része maga a kreatív, akit – szemben egy szoftverrel – nem lehetséges parancsra ki-bekapcsolni vagy magas minőségű alkotások azonnali előállítására ösztönözni. A szöveg-kép és szöveg-videó modellek ezen változtatnak: a tulajdonképpeni produktum szöveges leírásából egy algoritmus generál változatokat, amelyekből nekünk „csak” választanunk kell.

Az első sorban a Google Imagen által készített képek, alatta pedig az Open AI DALL-E 2 produktumai láthatóak, amelyek pusztán szöveges parancsokkal jöttek létre (lásd a bejegyzés végén).

Mi a baj a nagy modellekkel és miért válik a probléma egyre kritikusabbá?

A mesterséges intelligencia alkalmazásai között jelenleg gyakorlatilag egyeduralkodó mélytanuló módszerek sajátossága, hogy úgy működnek, mint Feuerbach híres mondása, mely szerint "Az vagy, amit elfogyasztasz.". Az algoritmusok hatalmas adatsorokon tanulnak fel és az adott modell pontossága nagyban függ attól, hogy milyen tisztaságú adatsor volt az alap. Ha az adatbázis részrehajló (pl. csak idős férfiakat vannak benne) vagy rosszul címkézett (széknek jelölt repülőgépeket tartalmaz), akkor az előálló modell is ezt tükrözi majd. A tartalomgenerátorok esetén ez különösen veszélyes, mert egy rosszul működő modell tömegesen erősíthet meg rasszra vonatkozó, vallási, nemi sztereotípiákat, vagy működhet hibásan más módokon is. Mind az OpenAI, mind a Google tisztában van a kockázattal, így legfejlettebb algoritmusaikat kizárólag a cég felügyelete mellett árusítják és a felhasználásukra is csak így kerülhet sor.

Adatvédelmi paradoxon: amit elveszítünk a vámon, megnyerjük a réven

Bár a gépi audiovizuális tartalomelőállítás tömeges formái gyakorlatilag minden más aspektusból szörnyű jövőt tartogatnak, paradox módon még erősíthetik is a természetes személyek saját adatainak védelmét. Az interneten található audiovizuális személyes adatok éppen azért értékesek, mert szűkösség áll fenn belőlük. A barátainkkal azért osztunk meg képeket és videókat, mert a velünk történt, egyedi események emlékeit szeretnénk megmutatni nekik. A vállalatok azért publikálják a rendezvényeikről készült képeket, hogy bizalmat ébresszenek partnereikben és jövőbeli munkavállalóikban. Jelenleg az audiovizuális tartalmak kapcsán a döntés bináris: vállalom a személyes adatok publikussá tételének kockázatát vagy elzárkózom ettől. A közeljövőben viszont előfordulhat, hogy a DALL-E és Imagenhez hasonló modellek segítségével dönthetünk majd arról, hogy a rólunk készült fényképek és videók esetén ne az eredeti, hanem egy azzal közel minden aspektusában megegyező, csak épp velünk nem azonos személyt tartalmazó változatot publikáljunk-e.

^{Képek forrása:}

^{Google Imagen}

^{@hardmaru, Twitter: Két a rjógokui Nemzeti Szumó Stadionban szumózó macskáról, ukijo-e stílusban készült festmény.}
^{Google: Egy kacsáról készült, átlátszó üveg szobor. A szobor egy tájkép előtt áll.}
^{@irinablok, Twitter: Kávéscsésze, sok lyukkal.}
^{@irinablok, Twitter: Egy félbevágott gyümölcs, amely kívül káposzta, belül pedig narancs textúrája van.}

^{OpenAI DALL-E 2}

^{@Dalle2pics, Twitter: Homer Simpson az Ideglelés című filmben.}
^{2 és 3. @djbaskin_images, Twitter: Két generált emberi arc, sminkkel.}
^{OpenAI: Két őrült tudós plüss medve, amelyek szikrázó folyadékokat kevernek, steampunk stílusban.}

^{(Kiemelt kép: @hardmaru / Twitter)}

Címkék: Dall-E 2, Google Imagen, képgenerátor, mesterséges intelligencia, OpenAI

Megjelent: 2022. június 29. | Témakör: Adatvédelem Üzlet

Nagy Demeter Viktor
[email protected]

www.nexia.com

A fenti összefoglaló tájékoztatás és figyelemfelhívás céljából készült. Bármilyen ebből következő döntés előtt javasoljuk, hogy konzultáljon szakértőinkkel.

Az ABT Treuhand Csoport 2005 óta a NEXIA International tagja. A Nexia International a világ több mint 100 országában működő mintegy 320 független adótanácsadó és könyvvizsgáló cég szaktudását és tapasztalatát egyesítő, 1971 óta létező hálózat.