
Qorayaasha:
(1) Sergey Kucheryavskiy, Waaxda Chemistry iyo Bioscience, Jaamacadda Aalborg iyo qoraa ku habboon (svk@bio.aau.dk);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, Barnaul, 656023, Ruushka iyo qoraayaasha wax ku biirinaya0 (szhilin@gmail.com).
Xusuusta tifaftiraha: Tani waa qaybta 1 ee 4 ee daraasadda si faahfaahsan u sharraxaysa hab cusub oo loogu talagalay kordhinta xogta tirada iyo isku dhafan. Hoos ka akhri inta kale.
Warqadan, waxaan ku soo jeedineynaa hab cusub oo loogu talagalay kordhinta tirada iyo xogta isku dhafan. Habka ayaa soo saara dhibco xog dheeri ah iyadoo la adeegsanayo dib-u-samaynta xaqiijinta iyo qaabaynta doorsoomayaasha qarsoon. Waxay si gaar ah ugu waxtar badan tahay xog-ururinta leh heerar dhexdhexaad ah ama heer sare ah oo isku-duubni ah, maadaama ay si toos ah uga faa'iidaysato hantidan jiilkeeda. Habka waa mid fudud, degdeg ah, oo leh cabbirro aad u yar, kuwaas oo, sida ku cad warqadda, uma baahna hagaajin gaar ah. Waxaa lagu tijaabiyay dhowr xog oo dhab ah; halkan, waxaan ku soo sheegnay natiijooyin faahfaahsan laba xaaladood, saadaasha borotiinka hilibka duqadda ah ee ku salaysan spectra infrared u dhow (xogta tirada buuxda ee leh heerka sare ee collinearity) iyo takoorida bukaanada loo gudbiyo angiography wadnaha (xog isku dhafan, oo leh labadaba doorsoomayaal tiro iyo kala duwanaansho ah, iyo dhexdhexaadnimo dhexdhexaad ah). Labada xaaladoodba, shabakadaha neerfaha ee macmalka ah ayaa loo shaqaaleysiiyay horumarinta dib u noqoshada iyo qaababka takoorka. Natiijooyinka waxay muujinayaan horumar cad oo ku saabsan waxqabadka moodooyinka; sidaas darteed saadaasha borotiinka hilibka, ku habboonaanta qaabka xogta la kordhiyay waxay keentay hoos u dhaca xididka celceliska khaladka labajibbaaran ee lagu xisaabiyay imtixaanka madaxbannaan ee loo dejiyay 1.5 ilaa 3 jeer.
Erayada furaha : kordhinta xogta, shabakadaha neerfaha ee macmalka ah, Procrustes cross-validation, doorsoomayaasha qarsoon, collinearity
Hababka barashada mashiinka casriga ah ee ku tiirsan moodooyinka kakanaanta sarreeya, sida shabakadaha neerfaha ee macmalka ah (ANN), waxay u baahan yihiin tiro badan oo xog ah si loo tababaro loona hagaajiyo moodooyinka. Xogta tababbarka oo aan ku filnayn ayaa inta badan keenta dhibaatooyin xad dhaaf ah, maadaama tirada noocyada hyperparameters-ka ee la hagaajinayo ay aad uga badan tahay tirada darajooyinka xorriyadda xogta.
Arrin kale oo caadi ah oo kiiskan ah waa la'aanta dib-u-soo-celinta sababtoo ah nidaamka tababarka ANN ma aha mid go'aamin kara, marka la eego xulashada random ee cabbiraadaha moodeelka bilowga ah iyo dabeecadda stochastic ee hagaajintooda. Sidaa awgeed, marnaba ma horseedo moodal leh halbeegyo iyo waxqabad isku mid ah, maaddaama tijaabooyinka tababar ee kala duwan ay keeni karaan noocyo kala duwan. Kala duwanaanshiyahani wuxuu noqonayaa mid weyn haddii tababarka tababarka uu aad u yar yahay.
Dhibaatadani waxay si gaar ah u tahay mid degdeg ah marka la eego ku habboonaanta xogta tijaabada ah, maadaama ay inta badan qaali tahay iyo waqti-qaadashada in la sameeyo tijaabooyin badan oo tijaabo ah, taas oo ka dhigaysa mid aan suurtagal ahayn in la ururiyo kumanaan cabbir oo loo baahan yahay tababbarka saxda ah iyo hagaajinta. Waxa kale oo jiri kara caqabado kale, sida waraaqaha la xidhiidha oggolaanshaha cilmi-baarista caafimaadka.
Hal dariiqo oo lagaga gudbi karo dhibaatada xogta tababarka oo aan ku filnayn ayaa ah in si macmal ah loo kordhiyo iyada oo la sawirayo dhibco xogeed cusub ama wax ka beddel yar lagu sameeyo kuwa jira. Farsamadan waxaa badanaa loo yaqaan "kordhinta xogta". Kordhinta xogta ayaa muujisay inay si gaar ah waxtar ugu leedahay falanqaynta muuqaalka iyo kala-soocidda, iyada oo cilmi-baaris ballaaran ay ka warbixinayso hababka kordhinta ee kala duwan [1] [2], [3] iyo hababka si gaar ah waxtar ugu leh kiisaska gaarka ah [4] [5] . Hababka kordhinta ee xogta taxanaha wakhtiga ayaa sidoo kale si fiican loo horumariyay [6].
Si kastaba ha ahaatee, waxaa jira la'aanta habab hufan oo bixin kara kordhinta xogta saxda ah ee xog-ururinta oo leh dhexdhexaad ilaa heer sare ah oo iskuxirid ah. Xogta noocan oo kale ah ayaa ku baahsan cilmi baarista tijaabada ah, oo ay ku jiraan noocyada kala duwan ee xogta spectroscopic, natiijooyinka isku xigxiga genome (tusaale, 16S RNA), iyo kuwo kale oo badan. Xog ururin badan oo la jaan-qaaday ayaa sidoo kale muujinaya qaab-dhismeedyo gudaha ah oo doorsoomayaal ay isku xidhan yihiin. Hababka hadda la heli karo ee lagu kordhinayo xogtan ayaa inta badan ku tiirsan in lagu daro noocyo kala duwan oo buuq ah [7] cabbirada jira, taas oo aan had iyo jeer ku filnayn. Waxa kale oo jira habab rajo leh oo ka faa'iideysanaya autoencoders kala duwan iyagoo muunad random ka soo qaadaya booskooda doorsoomayaasha qarsoon [8], ama habab ku salaysan shabakadaha iska soo horjeeda [4]. Dhinacyada hoose ayaa ah in labada habba ay u baahan yihiin dhisidda iyo hagaajinta qaab shabakad neerfeed gaar ah oo loogu talagalay kordhinta xogta oo markaa waxay u baahan yihiin hab dhammaystiran oo kheyraad dalbanaya habka kor-u-qaadista iyo diyaarinta tababarka bilowga ah oo baaxad weyn.
Warqadan, waxaanu ku soo jeedinaynaa hab fudud, degdeg ah, wax ku ool ah, haddana hufan oo lagu kordhinayo xog-ururinta iyo isku-dhafka xogta. Habkani wuxuu ku salaysan yahay hab markii hore loo sameeyay ujeeddooyin kale, gaar ahaan soo saarista jaangooyooyinka ansaxinta, oo markaa loo yaqaan Procrustes cross-validation [9] [10]. Si kastaba ha ahaatee, sida lagu muujiyey warqadan, waxay si wax ku ool ah u wajaheysaa dhibaatada xog-ururinta, taasoo keentay in la helo moodallo leh saadaalin si weyn loo hagaajiyay ama waxqabadka kala saarista.
Habkayagu wuxuu si toos ah uga faa'iidaysanayaa isku-duubnida habka jiilka. Waxay ku habboon tahay xogta tababarka oo leh doorsoomayaal dahsoon ka dibna waxay shaqaaleysiisaa dib-u-qaabaynta xaqiijinta si loo cabbiro kala duwanaanshiyaha doorsoomayaasha. Kala duwanaanshiyahan ayaa markaa loo soo bandhigay shaxda tababarka sida qalad muunad, taasoo keentay xog cusub oo dhibco ah.
Laba nooc oo ku habboon ayaa la adeegsan karaa - kala-goynta qiimaha keli ah (SVD) iyo qayb ahaan ugu yaraan labajibbaaran (PLS). Doorashada qaabka ku habboon ayaa u oggolaanaysa isticmaaluhu inuu mudnaanta siiyo qayb ka mid ah qaab-dhismeedka wadajirka, kaas oo loo isticmaali doono jiilka xogta cusub.
Labada nooc ee ku habboon waxay leeyihiin laba cabbir - tirada doorsoomayaasha qarsoon iyo tirada qaybaha loo isticmaalo dib-u-samaynta xaqiijinta. Tijaabooyinku waxay muujinayaan in kasta oo cabbiradu aanay u baahnayn hagaajin gaar ah. Tiro kasta oo doorsoomayaal qarsoon oo waaweyn oo ku filan si ay u qabtaan kala duwanaanshaha nidaamsan ee qiyamka tababarka ayaa si isku mid ah u adeegaya. Iyo sidoo kale tiro kasta oo qaybood oo ka bilaabma saddex.
Habka la soo jeediyay waa mid wax ku ool ah waxaana lagu dabaqi karaa labadaba xogta tirada buuxda iyo sidoo kale xogta la soo bandhigay halkaasoo hal ama dhowr doorsoomayaal ay tayo leeyihiin. Tani waxay fureysaa aragti kale, oo ah xogta ku jeesjeeska, taas oo faa'iido u yeelan karta, tusaale ahaan, tijaabinta hababka sare ee software-ka, inkastoo aynaan tixgelin dhinacan halkan.
Warqaddu waxay qeexaysaa aasaaska aragtiyeed ee habka waxayna sharraxaysaa ku-dhaqankeeda iyo waxqabadkeeda la taaban karo ee ku salaysan laba xog-ururin oo dabeecado kala duwan leh. Waxay bixisaa tafaasiil dhamaystiran oo ku saabsan sida habka si wax ku ool ah loogu dabaqi karo xog-ururinta kala duwan ee xaaladaha dunida dhabta ah.
Waxaan ku hirgelinay habka dhowr luqadood oo barnaamijyo ah, oo ay ku jiraan Python, R, MATLAB, iyo JavaScript, iyo dhammaan hirgelinta si xor ah ayaa loogu heli karaa kaydka GitHub (https://github.com/svkucheryavski/pcv). Intaa waxaa dheer, waxaan bixinaa nooc online ah halkaas oo qofku si toos ah uga soo saari karo dhibco xog cusub browserka (https://mda.tools/pcv).
Warqadan waxaa laga heli karaa arxiv iyadoo la raacayo shatiga CC BY 4.0 DEED.