La investigació de la intel·ligència artificial és un incendi de contenidors i Google fa els partits


El món de la investigació en IA està en ruines. Des dels acadèmics que prioritzen esquemes fàcils de monetitzar en lloc d’obrir nous terrenys, fins a l’elit de Silicon Valley que utilitza l’amenaça de pèrdua de llocs de treball per fomentar hipòtesis favorables a les empreses, el sistema és un embolic trencat.

I Google es mereix una part del lleó de la culpa.

Com va començar

Hi havia aproximadament 85.000 treballs de recerca publicat a nivell mundial sobre el tema de l’IA/ML l’any 2000. Avancem ràpidament fins al 2021 i només als EUA es van publicar gairebé el doble.

Dir que hi ha hagut una explosió al camp seria un eufemisme massiu. Aquesta afluència d’investigadors i noves idees ha fet que l’aprenentatge profund es converteixi en una de les tecnologies més importants del món.

Entre el 2014 i el 2021, la gran tecnologia va abandonar pràcticament els seus principis “el web primer” i “el mòbil primer” per adoptar estratègies “AI primer”.

Ara, el 2022, els desenvolupadors i investigadors d’IA tenen més demanda (i cobren més sou) que gairebé qualsevol altra feina en tecnologia fora de la suite C.

Però aquest tipus de creixement sense restriccions també té un costat fosc. En la lluita per satisfer la demanda del mercat de productes i serveis basats en l’aprenentatge profund, el camp s’ha convertit en tan desagradable i voluble com els esports professionals.

En els últims anys, hem vist el “GANpare”, Ian Goodfellow, salta de Google a Apple, Timnit Gebru i altres són acomiadats de Google per opinions discrepants sobre l’eficàcia de la investigació, i un torrent virtual de documents d’IA dubtosos aconsegueixen d’alguna manera aclarir la revisió per parells.

La riuada de talent que va arribar arran de l’explosió de l’aprenentatge profund també va comportar una esllavissada de mala investigació, frau i cobdícia corporativa.

Com va

Google, més que cap altra empresa, és responsable del paradigma modern d’IA. Això vol dir que hem de donar una gran G per portar el processament del llenguatge natural i el reconeixement d’imatges a les masses.

També significa que podem acreditar a Google la creació de l’entorn investigador-menjar-investigador que fa que alguns estudiants universitaris i els seus professors associats amb grans tecnologies tracten els treballs de recerca com una mica més que un esquer per a capitalistes de risc i caçadors de caps empresarials.

A la part superior, Google ha mostrat la seva voluntat de contractar els investigadors més talentosos del món. I també s’ha demostrat nombroses vegades que els dispararà en un ratolí si no s’acosten a la línia de l’empresa.

L’empresa va fer notícia a tot el món després d’acomiadar a Timnit Gebru, un investigador que havia contractat per ajudar a dirigir la seva divisió d’ètica d’IA, el desembre del 2020. Només uns mesos després va acomiadar un altre membre de l’equip, Margaret Mitchell.

Google sosté que el treball dels investigadors no estava a l’altura de les especificacions, però tant dones com nombrosos partidaris afirmen que els acomiadaments només es van produir després de plantejar preocupacions ètiques sobre la investigació que el cap d’IA de la companyia, Jeff Dean, havia signat.

Ara fa tot just un any després i la història es repeteix. Google va acomiadar un altre investigador d’IA de renom mundialSatrajit Chatterjee, després de dirigir un equip de científics per desafiar un altre article que Dean havia signat.

L’efecte lliscament de fang

A la part superior, això significa que la competència per als llocs de treball ben remunerats és ferotge. I la recerca del proper investigador o desenvolupador amb talent comença més aviat que mai.

S’espera que els estudiants que treballin cap a graus avançats en els camps de l’aprenentatge automàtic i la intel·ligència artificial, que eventualment vulguin treballar fora de l’acadèmia, siguin autors o coautors de treballs de recerca que demostrin el seu talent.

Malauradament, el pipeline des de l’acadèmia fins a la gran tecnologia o el món de les startups liderades per VC està ple de papers de merda escrits per estudiants que tenen tota la inclinació d’escriure algorismes que es poden monetitzar.

Una cerca ràpida de Google Acadèmic de “processament del llenguatge natural”, per exemple, mostra gairebé un milió de visites. Molts dels articles enumerats tenen centenars o milers de citacions.

A la superfície, això indicaria que la PNL és un subconjunt pròsper de la investigació sobre l’aprenentatge automàtic que ha cridat l’atenció d’investigadors de tot el món.

De fet, les cerques de “xarxa neuronal artificial”, “visió per ordinador” i “aprenentatge de reforç” van donar lloc a una quantitat similar de resultats.

Malauradament, una part important de la investigació en IA i ML és intencionadament fraudulenta o plena de mala ciència.

El que pot haver funcionat bé en el passat s’està convertint ràpidament en una manera de comunicar la investigació potencialment obsoleta.

Stuart Richie de The Guardian va escriure recentment un article preguntant-nos si hauríem d’eliminar del tot els treballs de recerca. Segons ells, els problemes de la ciència estan al forn bastant profund:

Aquest sistema comporta grans problemes. El principal d’ells és el tema del biaix de publicació: és més probable que els revisors i els editors facin un bon escrit a un article científic i el publiquin a la seva revista si informa de resultats positius o emocionants. Així, els científics fan tot el possible per promocionar els seus estudis, es recolzen en les seves anàlisis perquè produeixin resultats “millors” i, de vegades, fins i tot cometen fraus per impressionar aquests guardians tan importants. Això distorsiona dràsticament la nostra visió del que realment va passar.

El problema és que els guardians que tothom intenta impressionar tendeixen a tenir les claus de l’ocupació futura dels estudiants i l’admissió dels acadèmics a revistes o conferències prestigioses: els investigadors poden no aconseguir la seva aprovació pel seu compte i risc.

I, fins i tot si un document aconsegueix superar la revisió per parells, no hi ha cap garantia que les persones que fan les coses no estiguin adormides a l’interruptor.

És per això que Guillaume Cabanac, professor associat d’informàtica a la Universitat de Tolosa de Llenguadoc, va crear un projecte anomenat Filtrador de paper problemàtic (PPS).

El PPS utilitza l’automatització per marcar documents que contenen codi, matemàtiques o verbiatge potencialment problemàtics. Amb l’esperit de la ciència i l’equitat, Cabanac assegura que tots els articles marcats reben una revisió manual dels humans. Però és probable que la feina sigui massa gran perquè un grapat d’humans ho facin en el seu temps lliure.

Segons a informe de Spectrum News, hi ha molts articles problemàtics. I la majoria tenen a veure amb l’aprenentatge automàtic i la IA:

L’investigador va considerar uns 7.650 estudis problemàtics, inclosos més de 6.000 per haver torturat frases. La majoria dels articles que contenen frases torturades semblen provenir dels camps de l’aprenentatge automàtic, intel · ligència artificial i enginyeria.

Les frases torturades són termes que generen banderes vermelles als investigadors perquè intenten descriure un procés o concepte que ja està ben establert.

Per exemple, l’ús de termes com “neural falsificat” o “neural artificial” podria indicar l’ús d’un connector de tesaurus utilitzat per actors dolents que intenten evitar plagiar treballs anteriors.

La solució

Tot i que no es pot culpar a Google de tot el contrari en els camps de l’aprenentatge automàtic i la intel·ligència artificial, ha jugat un paper desmesurat en la transferència de la investigació revisada per parells.

Això no vol dir que Google també no dóna suport i recolza la comunitat científica mitjançant el codi obert, l’ajuda financera i el suport a la investigació. I certament no estem intentant donar a entendre que tots els que estudien IA només volen guanyar diners ràpidament.

Però el sistema s’ha configurat per fomentar la monetització dels algorismes primer i, en segon lloc, per afavorir el camp. Perquè això canviï, la gran tecnologia i l’acadèmia han de comprometre’s amb una reforma generalitzada en com es presenta i revisa la investigació.

Actualment, no hi ha cap autoritat de verificació de tercers àmpliament reconeguda per als documents. El sistema de revisió per parells s’assembla més a un codi d’honor que a un conjunt de principis acordats seguits per les institucions.

Tanmateix, hi ha prioritat per a l’establiment i el funcionament d’un comitè de supervisió amb l’abast, la influència i l’experiència per governar més enllà dels límits acadèmics: el NCAA.

Si podem unificar un sistema de competició justa per a milers de programes d’atletisme amateur, és una aposta segura que podríem formar un òrgan de govern per establir directrius per a la investigació i la revisió acadèmica.

I, pel que fa a Google, hi ha una possibilitat millor que nul·la que el conseller delegat, Sundar Pichai, torni a ser convocat abans del congrés si l’empresa continua acomiadant els investigadors que contracta per supervisar els seus programes d’IA ètics.

El capitalisme nord-americà vol dir que una empresa normalment és lliure de contractar i acomiadar a qui vulgui, però els accionistes i els treballadors també tenen drets.

Finalment, Google s’haurà de comprometre amb la investigació ètica o es veurà incapaç de competir amb les empreses i organitzacions que ho vulguin.