செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics) . . . (மொழி, மொழியியல் மாணவர்களுக்குப் பயன்படும் ஒரு பதிவு இது)

-------------------------------------------------------------------------

மொழியியலில் வேறுபட்ட பல கோட்பாடுகள் உண்டு. இதற்கு இரண்டு முக்கியக் காரணங்கள் உண்டு. முதலாவது குறிப்பிட்ட மொழியியல் கோட்பாட்டின் நோக்கம்.

(1) மாற்றிலக்கணக் கோட்பாட்டின் (குறிப்பாக, நோம் சாம்ஸ்கி ) நோக்கம், பிறந்த குழந்தை எவ்வாறு குறைந்த காலத்தில் ( மூன்று ஆண்டுகளுக்குள்), தாய்மொழி அறிவை (இலக்கணம், சொற்களஞ்சியம்) நிறைவாகப் பெற்றுக்கொள்கிறது? அதற்கு அடிப்படையான மொழித்திறன் குழந்தை பிறக்கும்போதே - மனிதமூளைக்குள் - அத்திறன் நீடிக்கிறதா? அவ்வாறு நீடித்தால் அத்திறனின் அடிப்படைக் கூறுகள் (''பொதுமை இலக்கணம்'' - Universal Grammar - UG) என்ன? அத்திறன் மனிதமூளைக்கே உரிய மரபணுப் பண்பு சார்ந்ததா? குழந்தை தனது வளர்ச்சியில் மொழியைக் ''கற்றுக்கொள்கிறதா''? அல்லது ''பெற்றுக்கொள்கிறதா''? குழந்தைக்குப் பிற திறன்கள் - தவழுதல், நடத்தல் போன்ற திறன்கள் - தாமாகவே ''வருவதுபோல'' அல்லது ''வளர்வதுபோல'' மொழியும் 'வளர்கிறதா?''

கணினிமொழியியலில் நீடிக்கிற ''நரம்பு வலைப்பின்னல் (Neural Network) " வழிமுறையானது கணினிக்கு இயற்கைமொழியின் அறிவைக் கொடுப்பதற்குத் தேவையான ''வழிமுறையை (algorithm / architecture)'' உருவாக்குவதாகும். அதனுடைய இன்றைய வளர்ச்சியே செய்யறிவுத்திறனில் கூறப்படுகிற ''ஆழ்நிலைக் கற்றல் (Deep Learning)'' ஆகும். இந்த ஆழ்நிலைக் கற்றல் வழிமுறையே தனக்குக் கொடுக்கப்படுகிற மொழித்தரவுகளைக் கொண்டு, ''தேவையான'' மொழி அறிவைக் கணினி பெற்றுக்கொள்கிறது. ஆனால் இந்த அறிவு குழந்தையின் மூளையில் இருக்கின்ற இலக்கண. சொற்களஞ்சிய அறிவு என்று கூறிவிடமுடியாது. வேறுபட்ட ஒன்றாகத்தான் அது அமைகிறது. இருப்பினும் மாற்றிலக்கண மொழியியலின் அடிப்படை இதற்கு உள்ளது. 'மனிதமூளையின்' உள்ளே உள்ள ''பொதுமை இலக்கணம்'' போன்ற ஒன்றைக் கணினிக்குக் கொடுக்க முயல்கிறது.

(2) அடுத்து, இங்கிலாந்தைச் சேர்ந்த ஃபிர்த் (Firth), ஹாலிடே (Halliday), சிங்க்ளயர் (Sinclair) போன்றோர் முன்வைக்கிற மொழியியல் கோட்பாடு. இக்கோட்பாடு ஆங்கிலத்தில் "Systemic Grammar" என்று அழைக்கப்படுகிறது. ஒருவர் மற்றவர் பேச்சை அல்லது மொழியைப் புரிந்துகொள்வதில் மூன்று முக்கியக் கூறுகள் உண்டு. ஒன்று , 'குறிப்பட்ட தொடர் அல்லது வாக்கியம்("Text") ' ; இரண்டு, அத்தொடருக்கு அல்லது வாக்கியத்திற்கு முந்தைய, பிந்தைய தொடர்கள் அல்லது வாக்கியங்கள் (Co-text)' ; மூன்று, குறிப்பிட்ட தொடர் அல்லது வாக்கியம் முன்வைக்கப்படுகிற மொழிசாராக் கூறுகள்( Context).

இம்மூன்றுமே ஒருவர் மற்றொருவர் முன்வைக்கின தொடரை அல்லது வாக்கியங்களின் பொருண்மையைப் புரிந்துகொள்ளமுடிகிறது.

செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள 'மொழித்திறன்' என்பது குறிப்பிட்ட சொல் அல்லது தொடரின் முந்தைய , பிந்தைய சொற்கள், தொடர்கள், பத்திகள் ஆகியவற்றன் அடிப்படையில்தான் அமைகிறது. இதைத்தான் செய்யறிவுத்திறனில் 'சூழற் சாளரம் "(Context Window") என்று இதில் அழைக்கிறார்கள். ஆனால் மனித மூளைக்கும் செய்யறிவுத்திறனுக்கும் இடையில் உள்ள ஒரு அடிப்படை வேறுபாடு, மனித மூளைக்கு ஒரு தொடரின் முன்னால் அல்லது பின்னால் அமைகிற ஒரு சில சொற்கள் போதும். ஏனெனில் சூழல்சார் அறிவு துணை செய்கிறது. பேசப்படுகிற சூழலை அல்லது பேசப்படுகிற பொருளைப் புரிந்துகொள்ளும் திறன் (உலக அறிவு ) மனித மூளைக்கு உள்ளது. இதில் டெல் ஹைம்ஸ் (Dell Hymes) என்பவரின் கருத்தாடல் திறன் (Communicative Competence) என்பதும் அடங்கும்.

ஆனால் இந்த அறிவு கணினிக்கு இல்லாததால், அதற்கு ஒரு சொல் அல்லது தொடருக்கு முந்தைய , பிந்தைய ஆயிரக்கணக்கான , லட்சக்கணக்கான சொற்கள் அல்லது தொடர்கள் தேவைப்படுகிறது. எனவேதான் செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள பெரும்மொழிமாதிரியில் கோடியே கோடியே சொற்கள் இடம்பெறுகின்றன. இச்சொற்களின் எண்ணிக்கை மேலும் கூடக்கூட, அதன் 'மொழித்திறமும்' கூடும்.

ஆகவே, மொழியியலின் அடிப்படைகளே செய்யறிவுத்திறனில் அமைந்துள்ள பெரும்மொழிமாதிரிகளில் நிலவுகின்றன. மொழியியல், கணினிமொழியியல் ஆகியவற்றின் கடந்த 150 ஆண்டுகால வளர்ச்சியே செய்யறிவுத்திறனின் பெரும்மொழிமாதிரிகளை (Pre-trained Large Language Model - LLM) உருவாக்குவதற்கு அடிப்படையாக அமைந்துள்ளன.

தமிழ்போன்ற மொழிகளில் கோடியே கோடி மின்தரவுகள் கிடைக்காததால்தான், ஆங்கிலத்திற்கு இருக்கிற மொழித்திறன் தமிழுக்குச் செய்யறிவுத்திறன் மென்பொருள்களில் கிடைப்பதில்லை. அதற்கு மாற்றுவழியே 'நுட்ப மேம்படுத்தல் (Fine-tuning) ' என்னும் வழிமுறையாகும். இந்த வழிமுறையில் மொழிதரவுகளுடன் மொழி இலக்கண அறிவும் இணைத்துக் கொடுக்கப்படுகிறது. இதற்குக் குறிப்பிட்ட மொழியின் இலக்கண அறிவும் மொழியியல் ஆய்வுமுறையும் தேவைப்படுகின்றன.

மேற்கூறியவை எல்லாம் முதல் காரணத்தில் அடங்கும். இரண்டாவது காரணம், ஒரே மொழியியல் கோட்பாட்டின் நோக்கத்தை வெவ்வேறு வழிமுறைகளில் நிறைவேற்ற முயல்வது ஆகும். மாற்றிலக்கண மொழியியல் கோட்பாட்டில் வெவ்வேறு வழிமுறைகளைக் கொண்ட மொழியியல் பிரிவுகள் உண்டு. அதுபற்றி வேறொரு பதிவைப் பின்னால் இடுகிறேன்.

ந.தெய்வ சுந்தரம்

என்னைப்பற்றி

Language Technology

Recent Posts

வெள்ளி, 24 அக்டோபர், 2025

0 கருத்துகள்:

கருத்துரையிடுக

Popular Posts

Archives