வெள்ளி, 24 அக்டோபர், 2025

செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics) . . . (மொழி, மொழியியல் மாணவர்களுக்குப் பயன்படும் ஒரு பதிவு இது) -------------------------------------------------------------------------

 செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics) . . . (மொழி, மொழியியல் மாணவர்களுக்குப் பயன்படும் ஒரு பதிவு இது)

-------------------------------------------------------------------------
மொழியியலில் வேறுபட்ட பல கோட்பாடுகள் உண்டு. இதற்கு இரண்டு முக்கியக் காரணங்கள் உண்டு. முதலாவது குறிப்பிட்ட மொழியியல் கோட்பாட்டின் நோக்கம்.
(1) மாற்றிலக்கணக் கோட்பாட்டின் (குறிப்பாக, நோம் சாம்ஸ்கி ) நோக்கம், பிறந்த குழந்தை எவ்வாறு குறைந்த காலத்தில் ( மூன்று ஆண்டுகளுக்குள்), தாய்மொழி அறிவை (இலக்கணம், சொற்களஞ்சியம்) நிறைவாகப் பெற்றுக்கொள்கிறது? அதற்கு அடிப்படையான மொழித்திறன் குழந்தை பிறக்கும்போதே - மனிதமூளைக்குள் - அத்திறன் நீடிக்கிறதா? அவ்வாறு நீடித்தால் அத்திறனின் அடிப்படைக் கூறுகள் (''பொதுமை இலக்கணம்'' - Universal Grammar - UG) என்ன? அத்திறன் மனிதமூளைக்கே உரிய மரபணுப் பண்பு சார்ந்ததா? குழந்தை தனது வளர்ச்சியில் மொழியைக் ''கற்றுக்கொள்கிறதா''? அல்லது ''பெற்றுக்கொள்கிறதா''? குழந்தைக்குப் பிற திறன்கள் - தவழுதல், நடத்தல் போன்ற திறன்கள் - தாமாகவே ''வருவதுபோல'' அல்லது ''வளர்வதுபோல'' மொழியும் 'வளர்கிறதா?''
கணினிமொழியியலில் நீடிக்கிற ''நரம்பு வலைப்பின்னல் (Neural Network) " வழிமுறையானது கணினிக்கு இயற்கைமொழியின் அறிவைக் கொடுப்பதற்குத் தேவையான ''வழிமுறையை (algorithm / architecture)'' உருவாக்குவதாகும். அதனுடைய இன்றைய வளர்ச்சியே செய்யறிவுத்திறனில் கூறப்படுகிற ''ஆழ்நிலைக் கற்றல் (Deep Learning)'' ஆகும். இந்த ஆழ்நிலைக் கற்றல் வழிமுறையே தனக்குக் கொடுக்கப்படுகிற மொழித்தரவுகளைக் கொண்டு, ''தேவையான'' மொழி அறிவைக் கணினி பெற்றுக்கொள்கிறது. ஆனால் இந்த அறிவு குழந்தையின் மூளையில் இருக்கின்ற இலக்கண. சொற்களஞ்சிய அறிவு என்று கூறிவிடமுடியாது. வேறுபட்ட ஒன்றாகத்தான் அது அமைகிறது. இருப்பினும் மாற்றிலக்கண மொழியியலின் அடிப்படை இதற்கு உள்ளது. 'மனிதமூளையின்' உள்ளே உள்ள ''பொதுமை இலக்கணம்'' போன்ற ஒன்றைக் கணினிக்குக் கொடுக்க முயல்கிறது.
(2) அடுத்து, இங்கிலாந்தைச் சேர்ந்த ஃபிர்த் (Firth), ஹாலிடே (Halliday), சிங்க்ளயர் (Sinclair) போன்றோர் முன்வைக்கிற மொழியியல் கோட்பாடு. இக்கோட்பாடு ஆங்கிலத்தில் "Systemic Grammar" என்று அழைக்கப்படுகிறது. ஒருவர் மற்றவர் பேச்சை அல்லது மொழியைப் புரிந்துகொள்வதில் மூன்று முக்கியக் கூறுகள் உண்டு. ஒன்று , 'குறிப்பட்ட தொடர் அல்லது வாக்கியம்("Text") ' ; இரண்டு, அத்தொடருக்கு அல்லது வாக்கியத்திற்கு முந்தைய, பிந்தைய தொடர்கள் அல்லது வாக்கியங்கள் (Co-text)' ; மூன்று, குறிப்பிட்ட தொடர் அல்லது வாக்கியம் முன்வைக்கப்படுகிற மொழிசாராக் கூறுகள்( Context).
இம்மூன்றுமே ஒருவர் மற்றொருவர் முன்வைக்கின தொடரை அல்லது வாக்கியங்களின் பொருண்மையைப் புரிந்துகொள்ளமுடிகிறது.
செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள 'மொழித்திறன்' என்பது குறிப்பிட்ட சொல் அல்லது தொடரின் முந்தைய , பிந்தைய சொற்கள், தொடர்கள், பத்திகள் ஆகியவற்றன் அடிப்படையில்தான் அமைகிறது. இதைத்தான் செய்யறிவுத்திறனில் 'சூழற் சாளரம் "(Context Window") என்று இதில் அழைக்கிறார்கள். ஆனால் மனித மூளைக்கும் செய்யறிவுத்திறனுக்கும் இடையில் உள்ள ஒரு அடிப்படை வேறுபாடு, மனித மூளைக்கு ஒரு தொடரின் முன்னால் அல்லது பின்னால் அமைகிற ஒரு சில சொற்கள் போதும். ஏனெனில் சூழல்சார் அறிவு துணை செய்கிறது. பேசப்படுகிற சூழலை அல்லது பேசப்படுகிற பொருளைப் புரிந்துகொள்ளும் திறன் (உலக அறிவு ) மனித மூளைக்கு உள்ளது. இதில் டெல் ஹைம்ஸ் (Dell Hymes) என்பவரின் கருத்தாடல் திறன் (Communicative Competence) என்பதும் அடங்கும்.
ஆனால் இந்த அறிவு கணினிக்கு இல்லாததால், அதற்கு ஒரு சொல் அல்லது தொடருக்கு முந்தைய , பிந்தைய ஆயிரக்கணக்கான , லட்சக்கணக்கான சொற்கள் அல்லது தொடர்கள் தேவைப்படுகிறது. எனவேதான் செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள பெரும்மொழிமாதிரியில் கோடியே கோடியே சொற்கள் இடம்பெறுகின்றன. இச்சொற்களின் எண்ணிக்கை மேலும் கூடக்கூட, அதன் 'மொழித்திறமும்' கூடும்.
ஆகவே, மொழியியலின் அடிப்படைகளே செய்யறிவுத்திறனில் அமைந்துள்ள பெரும்மொழிமாதிரிகளில் நிலவுகின்றன. மொழியியல், கணினிமொழியியல் ஆகியவற்றின் கடந்த 150 ஆண்டுகால வளர்ச்சியே செய்யறிவுத்திறனின் பெரும்மொழிமாதிரிகளை (Pre-trained Large Language Model - LLM) உருவாக்குவதற்கு அடிப்படையாக அமைந்துள்ளன.
தமிழ்போன்ற மொழிகளில் கோடியே கோடி மின்தரவுகள் கிடைக்காததால்தான், ஆங்கிலத்திற்கு இருக்கிற மொழித்திறன் தமிழுக்குச் செய்யறிவுத்திறன் மென்பொருள்களில் கிடைப்பதில்லை. அதற்கு மாற்றுவழியே 'நுட்ப மேம்படுத்தல் (Fine-tuning) ' என்னும் வழிமுறையாகும். இந்த வழிமுறையில் மொழிதரவுகளுடன் மொழி இலக்கண அறிவும் இணைத்துக் கொடுக்கப்படுகிறது. இதற்குக் குறிப்பிட்ட மொழியின் இலக்கண அறிவும் மொழியியல் ஆய்வுமுறையும் தேவைப்படுகின்றன.
மேற்கூறியவை எல்லாம் முதல் காரணத்தில் அடங்கும். இரண்டாவது காரணம், ஒரே மொழியியல் கோட்பாட்டின் நோக்கத்தை வெவ்வேறு வழிமுறைகளில் நிறைவேற்ற முயல்வது ஆகும். மாற்றிலக்கண மொழியியல் கோட்பாட்டில் வெவ்வேறு வழிமுறைகளைக் கொண்ட மொழியியல் பிரிவுகள் உண்டு. அதுபற்றி வேறொரு பதிவைப் பின்னால் இடுகிறேன்.

0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India