
Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
ஆசிரியர்கள்:
(1) ஜியான்ஹூய் பாங், மக்காவ் பல்கலைக்கழகத்தைச் சேர்ந்தவர், ஜியான்ஹூய் பாங் மற்றும் ஃபங்ஹுவா யே ஆகியோர் டென்சென்ட் AI ஆய்வகத்தில் (nlp2ct.pangjh3@gmail.com) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;
(2) Fanghua Ye, University College London, மற்றும் Jianhui Pang மற்றும் Fanghua Ye ஆகியோர் Tencent AI ஆய்வகத்தில் (fanghua.ye.19@ucl.ac.uk) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;
(3) டெரெக் எஃப். வோங், மக்காவ் பல்கலைக்கழகம்;
(4) Longyue Wang, Tencent AI ஆய்வகம் மற்றும் தொடர்புடைய ஆசிரியர்.
3 ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்
3.2 ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க்குகள்
3.3 ஆங்கர் அடிப்படையிலான அனுமானம்
4 சோதனைகள் மற்றும் 4.1 எங்கள் செயல்படுத்தல்
4.2 தரவு மற்றும் பயிற்சி நடைமுறை
7 முடிவு, வரம்புகள், நெறிமுறைகள் அறிக்கை மற்றும் குறிப்புகள்
பெரிய மொழி மாதிரிகள் (LLMகள்) முக்கியமாக டிகோடர்-மட்டுமே மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, வரலாற்று டோக்கன்களுக்கான விசைகள்/மதிப்புத் தகவல்களைத் தக்கவைத்து, சூழல் சார்ந்த தகவல்களை வழங்கவும், தேவையற்ற கணக்கீடுகளைத் தவிர்க்கவும் அவசியம். இருப்பினும், இந்த எல்எல்எம்களின் கணிசமான அளவு மற்றும் அளவுரு அளவுகளுக்கு மிகப்பெரிய GPU நினைவகம் தேவைப்படுகிறது. உள்ளீட்டு உரையின் நீளத்துடன் இந்த நினைவக தேவை அதிகரிக்கிறது, இது தகவல் சேமிப்பு மற்றும் செயலாக்கத்தின் மிகவும் திறமையான முறைகளுக்கான அவசரத் தேவைக்கு வழிவகுக்கிறது. இந்த ஆய்வு ஆங்கர் அடிப்படையிலான LLMகளை (AnLLMs) அறிமுகப்படுத்துகிறது, இது ஒரு புதுமையான ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஒரு நங்கூரம் சார்ந்த அனுமான உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை எல்எல்எம்களை வரிசைத் தகவலை ஆங்கர் டோக்கனில் சுருக்கவும், விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்பைக் குறைத்து அனுமானத் திறனை மேம்படுத்தவும் உதவுகிறது. 99% விசைகள்/மதிப்புகள் கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான அனுமானம் வரை அடையும் போது, AnLLMகள் ஒரே மாதிரியான துல்லிய நிலைகளை பராமரிக்கின்றன என்பதை கேள்வி-பதில் வரையறைகள் மீதான சோதனைகள் வெளிப்படுத்துகின்றன. துல்லியத்தில் சிறிய சமரசம் இருந்தாலும், வளப் பயன்பாடு மற்றும் கணக்கீட்டுத் திறனில் AnSAN நுட்பத்தைப் பயன்படுத்தும் AnLLMகளின் கணிசமான மேம்பாடுகள் நடைமுறை LLM பயன்பாடுகளுக்கான அவற்றின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.
பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) முதன்மையாக டிகோடர்-மட்டும் மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, அவை வரலாற்று டோக்கன்களுக்கான கேச்சிங் விசைகள்/மதிப்புத் தகவல்களைத் தேவைப்படுத்துகின்றன, அவை சூழல் தகவல்களை வழங்கவும் தேவையற்ற கணக்கீட்டைத் தவிர்க்கவும் (Wei et al., 2022; Tou. , 2023a; OpenAI, 2023; Touvron et al., 2023b). இருப்பினும், அவற்றின் அபரிமிதமான அளவு மற்றும் அதிக அளவுரு எண்ணிக்கை காரணமாக, ஏற்றுவதற்கு கணிசமான அளவு GPU நினைவகம் தேவைப்படுகிறது. மேலும், நீளம் என
படம் 1: விசைகள்/மதிப்புகள் தேக்ககங்கள் மற்றும் ஐந்து-ஷாட் விளக்கங்களுடன் OBQA, PIQA மற்றும் BoolQ பணிகளில் எங்களின் அனுமான முடுக்கம் விகிதம். பார்கள் விசைகள்/மதிப்புகள் கேச் மற்றும் உரை நீளத்தைக் குறிக்கின்றன, அதே சமயம் வளைவு அனுமான முடுக்க விகிதத்தைக் குறிக்கிறது. உரையின் நீளம் அதிகரிக்கும் போது, வழக்கமான முறைகளுடன் ஒப்பிடும்போது, விசைகள்/மதிப்புகள் தற்காலிக சேமிப்புகளில் 99% வரை ஈர்க்கக்கூடிய குறைப்பை எங்கள் முறை நிரூபிக்கிறது. மேலும், முன்னொட்டு உரைகளை தேக்ககப்படுத்துவதன் மூலம், கேச்சிங் அல்லாத அனுமானத்துடன் ஒப்பிடுகையில், அனுமானத்தின் செயல்திறனை 3.5 மடங்கு அதிகரித்துள்ளோம்.
உள்ளீட்டு உரையின் வளர்ச்சி, விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை சேமிப்பதற்கு மேலும் மேலும் GPU நினைவகம் தேவைப்படுகிறது, இது சூழலில் கற்றல், சிக்கலான வழிமுறைகள் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களில் சாட்சியமளிக்கப்படுகிறது (டாங் மற்றும் பலர், 2022; ஜியாங் மற்றும் பலர்., 2023; வாங் மற்றும் பலர். , 2023), இது வரையறுக்கப்பட்ட கணக்கீட்டு வளங்களைக் கொண்ட காட்சிகளுக்கு உகந்ததாக இல்லை. ஒரு மாற்று அணுகுமுறையானது இந்த விரிவான உள்ளீடுகளை மீண்டும் கணக்கிடுவதை உள்ளடக்குகிறது, இருப்பினும், இதன் விளைவாக அதிக நேரம் மேல்நிலை ஏற்படுகிறது. எனவே, இந்த ஆய்வு LLMகளின் அனுமானக் கட்டத்தில் விசைகள்/மதிப்புகள் தற்காலிக சேமிப்பிற்கான சேமிப்பகத் தேவையைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது, நினைவக செயல்திறனை மேம்படுத்துகிறது மற்றும் அதன் விளைவாக, அனுமான வேகத்தையும் துரிதப்படுத்துகிறது.
சமீபத்திய ஆய்வில், வாங் மற்றும் பலர். (2023) முன்னொட்டு விளக்கங்களில் லேபிள் சொற்கள் அனுமானத்தின் போது அறிவிப்பாளர்களாக செயல்பட முடியும் என்பதை நிரூபிக்கிறது, இது சூழல் கற்றலில் அனுமான செயல்திறனை மேம்படுத்துவதற்கான பயனுள்ள சூழல் சுருக்க அணுகுமுறையை வழங்குகிறது. இருப்பினும், நடைமுறை பயன்பாடுகளில், அனைத்து முன்னொட்டு உள்ளீடுகள் அல்லது ஆர்ப்பாட்டங்கள் தகவலை சுருக்குவதற்கு ஏற்ற லேபிள் வார்த்தைகளைக் கொண்டிருக்கவில்லை, லேபிள் வார்த்தைகளை நம்பியிருப்பது உரை தகவல் சுருக்கத்திற்கான குறைவான உலகளாவிய அணுகுமுறையாகும். கூடுதலாக, பாங் மற்றும் பலர். (2024) அனுமானத்தின் போது LLMகள் ஒரு சில, இன்னும் சீரான, முன்னொட்டு டோக்கன்களை மட்டுமே கவனிக்க முனைகின்றன என்பதைக் கவனியுங்கள். இருப்பினும், பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கன்கள் பெரும்பாலும் கணிக்க முடியாதவை மற்றும் கட்டுப்படுத்த முடியாதவை. இந்த அவதானிப்புகள் ஒரு புதிரான கேள்வியை எழுப்புகின்றன: இயற்கை மொழி நூல்கள் வரிசைகளின் ஒட்டுமொத்த சொற்பொருள் தகவலை சுருக்கும் நங்கூர புள்ளிகளைக் கொண்டிருக்கின்றனவா? இந்த சூழலில், வரிசை உட்பொதிவுகள் பற்றிய முந்தைய ஆய்வுகள், நியூரல் நெட்வொர்க் மாடல்களில் உள்ள ஒரு சிறப்பு டோக்கனின் மறைக்கப்பட்ட நிலை, சொற்பொருள் தகவல்களை இணைக்க முடியும் என்பதைக் காட்டுகிறது (Baudiš et al., 2016; Devlin et al., 2018). மேலும், சமகால எல்எல்எம்கள் பயிற்சி மற்றும் அனுமானம் ஆகிய இரண்டு கட்டங்களிலும் (Touvron et al., 2023a,b) ஒவ்வொரு முன் டோக்கனிலும் கலந்துகொள்வதன் போது காரணமான சுய-கவனம் பொறிமுறையை பொதுவாகப் பயன்படுத்துகின்றன. எதிர்கால டோக்கன்களை அவதானிக்க முடியாது என்பதால், மற்ற டோக்கன்களுடன் ஒப்பிடுகையில், ஒரு வரிசையில் உள்ள இறுதி டோக்கன் ஒரு இயற்கையான தகவல் சுருக்கப் புள்ளியாகச் செயல்பட மிகவும் பொருத்தமானதாக இருக்கும் என்று இது அறிவுறுத்துகிறது. எனவே, வரிசைத் தகவலைச் சுருக்கவும், விசைகள்/மதிப்புக் கேச்களை திறம்பட குறைக்கவும், LLMகளுக்கான அனுமானத் திறனை மேம்படுத்தவும், நம்பகமான மற்றும் கட்டுப்படுத்தக்கூடிய முறையில் வரிசை நங்கூரம் டோக்கன்களை அடையாளம் கண்டு சுரண்டும் முறையான அணுகுமுறை அவசியம்.
இந்த நோக்கத்திற்காக, ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஆங்கர் அடிப்படையிலான அனுமான உத்தி ஆகியவற்றைக் கொண்ட நாவல் A nchor-அடிப்படையிலான L arge L anguage M odels (AnLLMs) ஐ நாங்கள் முன்மொழிகிறோம். AnSAN ஆனது, பயிற்சிச் செயல்பாட்டின் போது, நங்கூரம் சார்ந்த கவனம் முகமூடிகளின் உதவியுடன், ஆங்கர் டோக்கனில் (எங்கள் செயலாக்கத்தின் கடைசி டோக்கன்) வரிசைத் தகவலைச் சுருக்குமாறு மாதிரிகளை கட்டாயப்படுத்த வடிவமைக்கப்பட்டுள்ளது. அனுமானத்தின் போது, ஆங்கர்-அடிப்படையிலான அனுமான உத்தியானது ஆங்கர் டோக்கன்களின் விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை வைத்திருக்கிறது, அவை முழு வரிசைத் தகவலையும் ஒருங்கிணைத்து, மற்றும் நான்காம் டோக்கன்களை நிராகரித்து, நினைவக கோரிக்கைகளை குறைக்கிறது. குறிப்பாக, AnSANக்கான ஆங்கர்-அடிப்படையிலான கவனம் முகமூடிகள் இரண்டு நோக்கங்களைச் செயல்படுத்துகின்றன: 1) ஆங்கர் டோக்கன்கள் ஒரே வரிசையில் உள்ள டோக்கன்களில் பிரத்தியேகமாக கலந்துகொள்வதை உறுதிசெய்வது, மற்ற காட்சிகளுக்கு கவனம் செலுத்துவதைத் தடுப்பது, மற்றும் 2) முந்தைய வரிசை அறிவிப்பாளர்களுக்கு நங்கூரம் அல்லாத டோக்கன்களின் கவனத்தை செலுத்துவது. , முந்தைய வரிசைகளில் இருந்து மற்ற நாஞ்சர் டோக்கன்களைத் தடுக்கிறது. நங்கூரம் சார்ந்த கவனத்தின் நுட்பம், சிதறிய கவனத்தின் அடிப்படையிலான கொள்கைகளுடன் ஒற்றுமையைக் கொண்டுள்ளது என்பது குறிப்பிடத்தக்கது (குழந்தை மற்றும் பலர்., 2019). எவ்வாறாயினும், எல்எல்எம்களின் சூழல் நீளத்தை (சென் மற்றும் பலர், 2023; ராட்னர் மற்றும் பலர், 2023) நீட்டிப்பதில் தற்போதுள்ள ஆராய்ச்சியைப் போலல்லாமல், வரிசைத் தகவலை நங்கூரத்தில் சுருக்குவதற்கு மாதிரியை தொடர்ந்து முன் பயிற்சி செய்வதில் எங்கள் முறை கவனம் செலுத்துகிறது. டோக்கன்.
இந்தத் தாள் CC BY 4.0 DEED உரிமத்தின் கீழ் arxiv இல் கிடைக்கிறது .