செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics) . . . (மொழி, மொழியியல் மாணவர்களுக்குப் பயன்படும் ஒரு பதிவு இது)
-------------------------------------------------------------------------
மொழியியலில் வேறுபட்ட பல கோட்பாடுகள் உண்டு. இதற்கு இரண்டு முக்கியக் காரணங்கள் உண்டு. முதலாவது குறிப்பிட்ட மொழியியல் கோட்பாட்டின் நோக்கம்.
(1) மாற்றிலக்கணக் கோட்பாட்டின் (குறிப்பாக, நோம் சாம்ஸ்கி ) நோக்கம், பிறந்த குழந்தை எவ்வாறு குறைந்த காலத்தில் ( மூன்று ஆண்டுகளுக்குள்), தாய்மொழி அறிவை (இலக்கணம், சொற்களஞ்சியம்) நிறைவாகப் பெற்றுக்கொள்கிறது? அதற்கு அடிப்படையான மொழித்திறன் குழந்தை பிறக்கும்போதே - மனிதமூளைக்குள் - அத்திறன் நீடிக்கிறதா? அவ்வாறு நீடித்தால் அத்திறனின் அடிப்படைக் கூறுகள் (''பொதுமை இலக்கணம்'' - Universal Grammar - UG) என்ன? அத்திறன் மனிதமூளைக்கே உரிய மரபணுப் பண்பு சார்ந்ததா? குழந்தை தனது வளர்ச்சியில் மொழியைக் ''கற்றுக்கொள்கிறதா''? அல்லது ''பெற்றுக்கொள்கிறதா''? குழந்தைக்குப் பிற திறன்கள் - தவழுதல், நடத்தல் போன்ற திறன்கள் - தாமாகவே ''வருவதுபோல'' அல்லது ''வளர்வதுபோல'' மொழியும் 'வளர்கிறதா?''
கணினிமொழியியலில் நீடிக்கிற ''நரம்பு வலைப்பின்னல் (Neural Network) " வழிமுறையானது கணினிக்கு இயற்கைமொழியின் அறிவைக் கொடுப்பதற்குத் தேவையான ''வழிமுறையை (algorithm / architecture)'' உருவாக்குவதாகும். அதனுடைய இன்றைய வளர்ச்சியே செய்யறிவுத்திறனில் கூறப்படுகிற ''ஆழ்நிலைக் கற்றல் (Deep Learning)'' ஆகும். இந்த ஆழ்நிலைக் கற்றல் வழிமுறையே தனக்குக் கொடுக்கப்படுகிற மொழித்தரவுகளைக் கொண்டு, ''தேவையான'' மொழி அறிவைக் கணினி பெற்றுக்கொள்கிறது. ஆனால் இந்த அறிவு குழந்தையின் மூளையில் இருக்கின்ற இலக்கண. சொற்களஞ்சிய அறிவு என்று கூறிவிடமுடியாது. வேறுபட்ட ஒன்றாகத்தான் அது அமைகிறது. இருப்பினும் மாற்றிலக்கண மொழியியலின் அடிப்படை இதற்கு உள்ளது. 'மனிதமூளையின்' உள்ளே உள்ள ''பொதுமை இலக்கணம்'' போன்ற ஒன்றைக் கணினிக்குக் கொடுக்க முயல்கிறது.
(2) அடுத்து, இங்கிலாந்தைச் சேர்ந்த ஃபிர்த் (Firth), ஹாலிடே (Halliday), சிங்க்ளயர் (Sinclair) போன்றோர் முன்வைக்கிற மொழியியல் கோட்பாடு. இக்கோட்பாடு ஆங்கிலத்தில் "Systemic Grammar" என்று அழைக்கப்படுகிறது. ஒருவர் மற்றவர் பேச்சை அல்லது மொழியைப் புரிந்துகொள்வதில் மூன்று முக்கியக் கூறுகள் உண்டு. ஒன்று , 'குறிப்பட்ட தொடர் அல்லது வாக்கியம்("Text") ' ; இரண்டு, அத்தொடருக்கு அல்லது வாக்கியத்திற்கு முந்தைய, பிந்தைய தொடர்கள் அல்லது வாக்கியங்கள் (Co-text)' ; மூன்று, குறிப்பிட்ட தொடர் அல்லது வாக்கியம் முன்வைக்கப்படுகிற மொழிசாராக் கூறுகள்( Context).
இம்மூன்றுமே ஒருவர் மற்றொருவர் முன்வைக்கின தொடரை அல்லது வாக்கியங்களின் பொருண்மையைப் புரிந்துகொள்ளமுடிகிறது.
செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள 'மொழித்திறன்' என்பது குறிப்பிட்ட சொல் அல்லது தொடரின் முந்தைய , பிந்தைய சொற்கள், தொடர்கள், பத்திகள் ஆகியவற்றன் அடிப்படையில்தான் அமைகிறது. இதைத்தான் செய்யறிவுத்திறனில் 'சூழற் சாளரம் "(Context Window") என்று இதில் அழைக்கிறார்கள். ஆனால் மனித மூளைக்கும் செய்யறிவுத்திறனுக்கும் இடையில் உள்ள ஒரு அடிப்படை வேறுபாடு, மனித மூளைக்கு ஒரு தொடரின் முன்னால் அல்லது பின்னால் அமைகிற ஒரு சில சொற்கள் போதும். ஏனெனில் சூழல்சார் அறிவு துணை செய்கிறது. பேசப்படுகிற சூழலை அல்லது பேசப்படுகிற பொருளைப் புரிந்துகொள்ளும் திறன் (உலக அறிவு ) மனித மூளைக்கு உள்ளது. இதில் டெல் ஹைம்ஸ் (Dell Hymes) என்பவரின் கருத்தாடல் திறன் (Communicative Competence) என்பதும் அடங்கும்.
ஆனால் இந்த அறிவு கணினிக்கு இல்லாததால், அதற்கு ஒரு சொல் அல்லது தொடருக்கு முந்தைய , பிந்தைய ஆயிரக்கணக்கான , லட்சக்கணக்கான சொற்கள் அல்லது தொடர்கள் தேவைப்படுகிறது. எனவேதான் செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள பெரும்மொழிமாதிரியில் கோடியே கோடியே சொற்கள் இடம்பெறுகின்றன. இச்சொற்களின் எண்ணிக்கை மேலும் கூடக்கூட, அதன் 'மொழித்திறமும்' கூடும்.
ஆகவே, மொழியியலின் அடிப்படைகளே செய்யறிவுத்திறனில் அமைந்துள்ள பெரும்மொழிமாதிரிகளில் நிலவுகின்றன. மொழியியல், கணினிமொழியியல் ஆகியவற்றின் கடந்த 150 ஆண்டுகால வளர்ச்சியே செய்யறிவுத்திறனின் பெரும்மொழிமாதிரிகளை (Pre-trained Large Language Model - LLM) உருவாக்குவதற்கு அடிப்படையாக அமைந்துள்ளன.
தமிழ்போன்ற மொழிகளில் கோடியே கோடி மின்தரவுகள் கிடைக்காததால்தான், ஆங்கிலத்திற்கு இருக்கிற மொழித்திறன் தமிழுக்குச் செய்யறிவுத்திறன் மென்பொருள்களில் கிடைப்பதில்லை. அதற்கு மாற்றுவழியே 'நுட்ப மேம்படுத்தல் (Fine-tuning) ' என்னும் வழிமுறையாகும். இந்த வழிமுறையில் மொழிதரவுகளுடன் மொழி இலக்கண அறிவும் இணைத்துக் கொடுக்கப்படுகிறது. இதற்குக் குறிப்பிட்ட மொழியின் இலக்கண அறிவும் மொழியியல் ஆய்வுமுறையும் தேவைப்படுகின்றன.
மேற்கூறியவை எல்லாம் முதல் காரணத்தில் அடங்கும். இரண்டாவது காரணம், ஒரே மொழியியல் கோட்பாட்டின் நோக்கத்தை வெவ்வேறு வழிமுறைகளில் நிறைவேற்ற முயல்வது ஆகும். மாற்றிலக்கண மொழியியல் கோட்பாட்டில் வெவ்வேறு வழிமுறைகளைக் கொண்ட மொழியியல் பிரிவுகள் உண்டு. அதுபற்றி வேறொரு பதிவைப் பின்னால் இடுகிறேன்.


11:12 PM
ந.தெய்வ சுந்தரம்
0 கருத்துகள்:
கருத்துரையிடுக