paint-brush
ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்மூலம்@anchoring
410 வாசிப்புகள்
410 வாசிப்புகள்

ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்

மூலம் Anchoring
Anchoring HackerNoon profile picture

Anchoring

@anchoring

Anchoring provides a steady start, grounding decisions and perspectives in...

4 நிமிடம் read2024/10/10
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
ta-flagTA
இந்த கதையை தமிழில் படியுங்கள்!
en-flagEN
Read this story in the original language, English!
bn-flagBN
এই গল্পটি বাংলায় পড়ুন!
es-flagES
Lee esta historia en Español!
ja-flagJA
この物語を日本語で読んでください!
cs-flagCS
Přečtěte si tento příběh v češtině!
hr-flagHR
Pročitajte ovu priču na hrvatskom!
sw-flagSW
Soma hadithi hii kwa kiswahili!
ps-flagPS
دا کیسه په پښتو ژبه ولولئ!
kk-flagKK
Бұл оқиғаны қазақша оқыңыз!
tg-flagTG
Ин қиссаро бо забони тоҷикӣ хонед!
lt-flagLT
Skaitykite šią istoriją lietuvių kalba!
sr-flagSR
Прочитајте ову причу на српском!
TA

மிக நீளமானது; வாசிப்பதற்கு

இந்த ஆய்வு ஆங்கர்-அடிப்படையிலான பெரிய மொழி மாதிரிகளை (AnLLMs) வழங்குகிறது, இது ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க்கை (AnSAN) பயன்படுத்தி, வரிசை தகவலை ஒரு ஆங்கர் டோக்கனில் சுருக்குகிறது. இந்த அணுகுமுறை விசைகள்/மதிப்புகளின் கேச் அளவுகளைக் கணிசமாகக் குறைக்கிறது மற்றும் அனுமானத் திறனை மேம்படுத்துகிறது, 99% கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான செயலாக்கத்தை குறைந்தபட்ச துல்லிய சமரசத்துடன் அடைகிறது. பெரிய அளவிலான மொழி மாதிரிகளுக்கான நினைவக மேம்படுத்தலில் AnLLMகள் ஒரு திருப்புமுனையை வழங்குகின்றன.
featured image - ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்
Anchoring HackerNoon profile picture
Anchoring

Anchoring

@anchoring

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

ஆசிரியர்கள்:

(1) ஜியான்ஹூய் பாங், மக்காவ் பல்கலைக்கழகத்தைச் சேர்ந்தவர், ஜியான்ஹூய் பாங் மற்றும் ஃபங்ஹுவா யே ஆகியோர் டென்சென்ட் AI ஆய்வகத்தில் (nlp2ct.pangjh3@gmail.com) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;

(2) Fanghua Ye, University College London, மற்றும் Jianhui Pang மற்றும் Fanghua Ye ஆகியோர் Tencent AI ஆய்வகத்தில் (fanghua.ye.19@ucl.ac.uk) பயிற்சி பெற்றபோது வேலை செய்யப்பட்டது;

(3) டெரெக் எஃப். வோங், மக்காவ் பல்கலைக்கழகம்;

(4) Longyue Wang, Tencent AI ஆய்வகம் மற்றும் தொடர்புடைய ஆசிரியர்.

இணைப்புகளின் அட்டவணை

சுருக்கம் மற்றும் 1 அறிமுகம்

2 தொடர்புடைய வேலை

3 ஆங்கர் அடிப்படையிலான பெரிய மொழி மாதிரிகள்

3.1 பின்னணி

3.2 ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க்குகள்

3.3 ஆங்கர் அடிப்படையிலான அனுமானம்

4 சோதனைகள் மற்றும் 4.1 எங்கள் செயல்படுத்தல்

4.2 தரவு மற்றும் பயிற்சி நடைமுறை

4.3 மதிப்பீடு

5 முடிவுகள்

6 பகுப்பாய்வு

7 முடிவு, வரம்புகள், நெறிமுறைகள் அறிக்கை மற்றும் குறிப்புகள்


மேலும் சோதனை முடிவுகள்

பி தரவு அமைப்புகள்

சுருக்கம்

பெரிய மொழி மாதிரிகள் (LLMகள்) முக்கியமாக டிகோடர்-மட்டுமே மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, வரலாற்று டோக்கன்களுக்கான விசைகள்/மதிப்புத் தகவல்களைத் தக்கவைத்து, சூழல் சார்ந்த தகவல்களை வழங்கவும், தேவையற்ற கணக்கீடுகளைத் தவிர்க்கவும் அவசியம். இருப்பினும், இந்த எல்எல்எம்களின் கணிசமான அளவு மற்றும் அளவுரு அளவுகளுக்கு மிகப்பெரிய GPU நினைவகம் தேவைப்படுகிறது. உள்ளீட்டு உரையின் நீளத்துடன் இந்த நினைவக தேவை அதிகரிக்கிறது, இது தகவல் சேமிப்பு மற்றும் செயலாக்கத்தின் மிகவும் திறமையான முறைகளுக்கான அவசரத் தேவைக்கு வழிவகுக்கிறது. இந்த ஆய்வு ஆங்கர் அடிப்படையிலான LLMகளை (AnLLMs) அறிமுகப்படுத்துகிறது, இது ஒரு புதுமையான ஆங்கர் அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஒரு நங்கூரம் சார்ந்த அனுமான உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை எல்எல்எம்களை வரிசைத் தகவலை ஆங்கர் டோக்கனில் சுருக்கவும், விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்பைக் குறைத்து அனுமானத் திறனை மேம்படுத்தவும் உதவுகிறது. 99% விசைகள்/மதிப்புகள் கேச் குறைப்பு மற்றும் 3.5 மடங்கு வேகமான அனுமானம் வரை அடையும் போது, AnLLMகள் ஒரே மாதிரியான துல்லிய நிலைகளை பராமரிக்கின்றன என்பதை கேள்வி-பதில் வரையறைகள் மீதான சோதனைகள் வெளிப்படுத்துகின்றன. துல்லியத்தில் சிறிய சமரசம் இருந்தாலும், வளப் பயன்பாடு மற்றும் கணக்கீட்டுத் திறனில் AnSAN நுட்பத்தைப் பயன்படுத்தும் AnLLMகளின் கணிசமான மேம்பாடுகள் நடைமுறை LLM பயன்பாடுகளுக்கான அவற்றின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.

1 அறிமுகம்

பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) முதன்மையாக டிகோடர்-மட்டும் மின்மாற்றி கட்டமைப்புகளைப் பயன்படுத்துகின்றன, அவை வரலாற்று டோக்கன்களுக்கான கேச்சிங் விசைகள்/மதிப்புத் தகவல்களைத் தேவைப்படுத்துகின்றன, அவை சூழல் தகவல்களை வழங்கவும் தேவையற்ற கணக்கீட்டைத் தவிர்க்கவும் (Wei et al., 2022; Tou. , 2023a; OpenAI, 2023; Touvron et al., 2023b). இருப்பினும், அவற்றின் அபரிமிதமான அளவு மற்றும் அதிக அளவுரு எண்ணிக்கை காரணமாக, ஏற்றுவதற்கு கணிசமான அளவு GPU நினைவகம் தேவைப்படுகிறது. மேலும், நீளம் என


படம் 1: விசைகள்/மதிப்புகள் தேக்ககங்கள் மற்றும் ஐந்து-ஷாட் விளக்கங்களுடன் OBQA, PIQA மற்றும் BoolQ பணிகளில் எங்களின் அனுமான முடுக்கம் விகிதம். பார்கள் விசைகள்/மதிப்புகள் கேச் மற்றும் உரை நீளத்தைக் குறிக்கின்றன, அதே சமயம் வளைவு அனுமான முடுக்க விகிதத்தைக் குறிக்கிறது. உரையின் நீளம் அதிகரிக்கும் போது, வழக்கமான முறைகளுடன் ஒப்பிடும்போது, விசைகள்/மதிப்புகள் தற்காலிக சேமிப்புகளில் 99% வரை ஈர்க்கக்கூடிய குறைப்பை எங்கள் முறை நிரூபிக்கிறது. மேலும், முன்னொட்டு உரைகளை தேக்ககப்படுத்துவதன் மூலம், கேச்சிங் அல்லாத அனுமானத்துடன் ஒப்பிடுகையில், அனுமானத்தின் செயல்திறனை 3.5 மடங்கு அதிகரித்துள்ளோம்.

படம் 1: விசைகள்/மதிப்புகள் தேக்ககங்கள் மற்றும் ஐந்து-ஷாட் விளக்கங்களுடன் OBQA, PIQA மற்றும் BoolQ பணிகளில் எங்களின் அனுமான முடுக்கம் விகிதம். பார்கள் விசைகள்/மதிப்புகள் கேச் மற்றும் உரை நீளத்தைக் குறிக்கின்றன, அதே சமயம் வளைவு அனுமான முடுக்க விகிதத்தைக் குறிக்கிறது. உரையின் நீளம் அதிகரிக்கும் போது, வழக்கமான முறைகளுடன் ஒப்பிடும்போது, விசைகள்/மதிப்புகள் தற்காலிக சேமிப்புகளில் 99% வரை ஈர்க்கக்கூடிய குறைப்பை எங்கள் முறை நிரூபிக்கிறது. மேலும், முன்னொட்டு உரைகளை தேக்ககப்படுத்துவதன் மூலம், கேச்சிங் அல்லாத அனுமானத்துடன் ஒப்பிடுகையில், அனுமானத்தின் செயல்திறனை 3.5 மடங்கு அதிகரித்துள்ளோம்.


உள்ளீட்டு உரையின் வளர்ச்சி, விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை சேமிப்பதற்கு மேலும் மேலும் GPU நினைவகம் தேவைப்படுகிறது, இது சூழலில் கற்றல், சிக்கலான வழிமுறைகள் மற்றும் நீட்டிக்கப்பட்ட உரையாடல்களில் சாட்சியமளிக்கப்படுகிறது (டாங் மற்றும் பலர், 2022; ஜியாங் மற்றும் பலர்., 2023; வாங் மற்றும் பலர். , 2023), இது வரையறுக்கப்பட்ட கணக்கீட்டு வளங்களைக் கொண்ட காட்சிகளுக்கு உகந்ததாக இல்லை. ஒரு மாற்று அணுகுமுறையானது இந்த விரிவான உள்ளீடுகளை மீண்டும் கணக்கிடுவதை உள்ளடக்குகிறது, இருப்பினும், இதன் விளைவாக அதிக நேரம் மேல்நிலை ஏற்படுகிறது. எனவே, இந்த ஆய்வு LLMகளின் அனுமானக் கட்டத்தில் விசைகள்/மதிப்புகள் தற்காலிக சேமிப்பிற்கான சேமிப்பகத் தேவையைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது, நினைவக செயல்திறனை மேம்படுத்துகிறது மற்றும் அதன் விளைவாக, அனுமான வேகத்தையும் துரிதப்படுத்துகிறது.


சமீபத்திய ஆய்வில், வாங் மற்றும் பலர். (2023) முன்னொட்டு விளக்கங்களில் லேபிள் சொற்கள் அனுமானத்தின் போது அறிவிப்பாளர்களாக செயல்பட முடியும் என்பதை நிரூபிக்கிறது, இது சூழல் கற்றலில் அனுமான செயல்திறனை மேம்படுத்துவதற்கான பயனுள்ள சூழல் சுருக்க அணுகுமுறையை வழங்குகிறது. இருப்பினும், நடைமுறை பயன்பாடுகளில், அனைத்து முன்னொட்டு உள்ளீடுகள் அல்லது ஆர்ப்பாட்டங்கள் தகவலை சுருக்குவதற்கு ஏற்ற லேபிள் வார்த்தைகளைக் கொண்டிருக்கவில்லை, லேபிள் வார்த்தைகளை நம்பியிருப்பது உரை தகவல் சுருக்கத்திற்கான குறைவான உலகளாவிய அணுகுமுறையாகும். கூடுதலாக, பாங் மற்றும் பலர். (2024) அனுமானத்தின் போது LLMகள் ஒரு சில, இன்னும் சீரான, முன்னொட்டு டோக்கன்களை மட்டுமே கவனிக்க முனைகின்றன என்பதைக் கவனியுங்கள். இருப்பினும், பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கன்கள் பெரும்பாலும் கணிக்க முடியாதவை மற்றும் கட்டுப்படுத்த முடியாதவை. இந்த அவதானிப்புகள் ஒரு புதிரான கேள்வியை எழுப்புகின்றன: இயற்கை மொழி நூல்கள் வரிசைகளின் ஒட்டுமொத்த சொற்பொருள் தகவலை சுருக்கும் நங்கூர புள்ளிகளைக் கொண்டிருக்கின்றனவா? இந்த சூழலில், வரிசை உட்பொதிவுகள் பற்றிய முந்தைய ஆய்வுகள், நியூரல் நெட்வொர்க் மாடல்களில் உள்ள ஒரு சிறப்பு டோக்கனின் மறைக்கப்பட்ட நிலை, சொற்பொருள் தகவல்களை இணைக்க முடியும் என்பதைக் காட்டுகிறது (Baudiš et al., 2016; Devlin et al., 2018). மேலும், சமகால எல்எல்எம்கள் பயிற்சி மற்றும் அனுமானம் ஆகிய இரண்டு கட்டங்களிலும் (Touvron et al., 2023a,b) ஒவ்வொரு முன் டோக்கனிலும் கலந்துகொள்வதன் போது காரணமான சுய-கவனம் பொறிமுறையை பொதுவாகப் பயன்படுத்துகின்றன. எதிர்கால டோக்கன்களை அவதானிக்க முடியாது என்பதால், மற்ற டோக்கன்களுடன் ஒப்பிடுகையில், ஒரு வரிசையில் உள்ள இறுதி டோக்கன் ஒரு இயற்கையான தகவல் சுருக்கப் புள்ளியாகச் செயல்பட மிகவும் பொருத்தமானதாக இருக்கும் என்று இது அறிவுறுத்துகிறது. எனவே, வரிசைத் தகவலைச் சுருக்கவும், விசைகள்/மதிப்புக் கேச்களை திறம்பட குறைக்கவும், LLMகளுக்கான அனுமானத் திறனை மேம்படுத்தவும், நம்பகமான மற்றும் கட்டுப்படுத்தக்கூடிய முறையில் வரிசை நங்கூரம் டோக்கன்களை அடையாளம் கண்டு சுரண்டும் முறையான அணுகுமுறை அவசியம்.


இந்த நோக்கத்திற்காக, ஒரு புதுமையான ஆங்கர்-அடிப்படையிலான சுய-கவனம் நெட்வொர்க் (AnSAN) மற்றும் ஆங்கர் அடிப்படையிலான அனுமான உத்தி ஆகியவற்றைக் கொண்ட நாவல் A nchor-அடிப்படையிலான L arge L anguage M odels (AnLLMs) ஐ நாங்கள் முன்மொழிகிறோம். AnSAN ஆனது, பயிற்சிச் செயல்பாட்டின் போது, நங்கூரம் சார்ந்த கவனம் முகமூடிகளின் உதவியுடன், ஆங்கர் டோக்கனில் (எங்கள் செயலாக்கத்தின் கடைசி டோக்கன்) வரிசைத் தகவலைச் சுருக்குமாறு மாதிரிகளை கட்டாயப்படுத்த வடிவமைக்கப்பட்டுள்ளது. அனுமானத்தின் போது, ஆங்கர்-அடிப்படையிலான அனுமான உத்தியானது ஆங்கர் டோக்கன்களின் விசைகள்/மதிப்புகளின் தற்காலிக சேமிப்புகளை வைத்திருக்கிறது, அவை முழு வரிசைத் தகவலையும் ஒருங்கிணைத்து, மற்றும் நான்காம் டோக்கன்களை நிராகரித்து, நினைவக கோரிக்கைகளை குறைக்கிறது. குறிப்பாக, AnSANக்கான ஆங்கர்-அடிப்படையிலான கவனம் முகமூடிகள் இரண்டு நோக்கங்களைச் செயல்படுத்துகின்றன: 1) ஆங்கர் டோக்கன்கள் ஒரே வரிசையில் உள்ள டோக்கன்களில் பிரத்தியேகமாக கலந்துகொள்வதை உறுதிசெய்வது, மற்ற காட்சிகளுக்கு கவனம் செலுத்துவதைத் தடுப்பது, மற்றும் 2) முந்தைய வரிசை அறிவிப்பாளர்களுக்கு நங்கூரம் அல்லாத டோக்கன்களின் கவனத்தை செலுத்துவது. , முந்தைய வரிசைகளில் இருந்து மற்ற நாஞ்சர் டோக்கன்களைத் தடுக்கிறது. நங்கூரம் சார்ந்த கவனத்தின் நுட்பம், சிதறிய கவனத்தின் அடிப்படையிலான கொள்கைகளுடன் ஒற்றுமையைக் கொண்டுள்ளது என்பது குறிப்பிடத்தக்கது (குழந்தை மற்றும் பலர்., 2019). எவ்வாறாயினும், எல்எல்எம்களின் சூழல் நீளத்தை (சென் மற்றும் பலர், 2023; ராட்னர் மற்றும் பலர், 2023) நீட்டிப்பதில் தற்போதுள்ள ஆராய்ச்சியைப் போலல்லாமல், வரிசைத் தகவலை நங்கூரத்தில் சுருக்குவதற்கு மாதிரியை தொடர்ந்து முன் பயிற்சி செய்வதில் எங்கள் முறை கவனம் செலுத்துகிறது. டோக்கன்.


இந்தத் தாள் CC BY 4.0 DEED உரிமத்தின் கீழ் arxiv இல் கிடைக்கிறது .


L O A D I N G
. . . comments & more!

About Author

Anchoring HackerNoon profile picture
Anchoring@anchoring
Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

ஹேங் டேக்குகள்

இந்த கட்டுரையில் வழங்கப்பட்டது...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here