வெள்ளி, 14 நவம்பர், 2025

செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics)

 செய்யறிவுத்திறனில் (Artificial Intelligence - AI) அமைந்துள்ள பெரும்மொழிமாதிரியின் (Large Language Model - LLM) அடிப்படையும் மொழியியலும் (Linguistics) . . . (மொழி, மொழியியல் மாணவர்களுக்குப் பயன்படும் ஒரு பதிவு இது)

-------------------------------------------------------------------------
மொழியியலில் வேறுபட்ட பல கோட்பாடுகள் உண்டு. இதற்கு இரண்டு முக்கியக் காரணங்கள் உண்டு. முதலாவது குறிப்பிட்ட மொழியியல் கோட்பாட்டின் நோக்கம்.
(1) மாற்றிலக்கணக் கோட்பாட்டின் (குறிப்பாக, நோம் சாம்ஸ்கி ) நோக்கம், பிறந்த குழந்தை எவ்வாறு குறைந்த காலத்தில் ( மூன்று ஆண்டுகளுக்குள்), தாய்மொழி அறிவை (இலக்கணம், சொற்களஞ்சியம்) நிறைவாகப் பெற்றுக்கொள்கிறது? அதற்கு அடிப்படையான மொழித்திறன் குழந்தை பிறக்கும்போதே - மனிதமூளைக்குள் - அத்திறன் நீடிக்கிறதா (Innate) ? அவ்வாறு நீடித்தால் அத்திறனின் அடிப்படைக் கூறுகள் (''பொதுமை இலக்கணம்'' - Universal Grammar - UG) என்ன? அத்திறன் மனிதமூளைக்கே உரிய மரபணுப் பண்பு சார்ந்ததா? குழந்தை தனது வளர்ச்சியில் மொழியைக் ''கற்றுக்கொள்கிறதா (learning)''? அல்லது ''பெற்றுக்கொள்கிறதா (acquring) ''? குழந்தைக்குப் பிற திறன்கள் - தவழுதல், நடத்தல் போன்ற திறன்கள் - தாமாகவே ''வருவதுபோல (comes to) '' அல்லது ''வளர்வதுபோல'' மொழியும் 'வளர்கிறதா (develops) ?''
கணினிமொழியியலில் நீடிக்கிற ''நரம்பு வலைப்பின்னல் (Neural Network) " வழிமுறையானது கணினிக்கு இயற்கைமொழியின் அறிவைக் கொடுப்பதற்குத் தேவையான ''வழிமுறையை (algorithm / architecture)'' உருவாக்குவதாகும். அதனுடைய இன்றைய வளர்ச்சியே செய்யறிவுத்திறனில் கூறப்படுகிற ''ஆழ்நிலைக் கற்றல் (Deep Learning)'' ஆகும். இந்த ஆழ்நிலைக் கற்றல் வழிமுறையே தனக்குக் கொடுக்கப்படுகிற மொழித்தரவுகளைக் கொண்டு, ''தேவையான'' மொழி அறிவைக் கணினி பெற்றுக்கொள்கிறது. ஆனால் இந்த அறிவு குழந்தையின் மூளையில் இருக்கின்ற இலக்கண. சொற்களஞ்சிய அறிவு என்று கூறிவிடமுடியாது. வேறுபட்ட ஒன்றாகத்தான் அது அமைகிறது. இருப்பினும் மாற்றிலக்கண மொழியியலின் அடிப்படை இதற்கு உள்ளது. 'மனிதமூளையின்' உள்ளே உள்ள ''பொதுமை இலக்கணம்'' போன்ற ஒன்றைக் கணினிக்குக் கொடுக்க முயல்கிறது. இந்த உள்ளார்ந்த ' ஆழ்நிலை கற்றல் பொறி' எந்தவொரு குறிப்பட்ட மொழி சார்ந்ததும் இல்லை. எந்தவொரு மொழியின் தரவுகள் கிடைத்தாலும் அதைக்கொண்டு அம்மொழிக்கான திறனைப் பெற்றுக்கொள்ளும். (சாம்ஸ்கியின் 'பொதுமை இலக்கணமும்' இதுபோன்றதுதான். எந்தவொரு குறிப்பிட்ட மொழி சார்ந்ததும் இல்லை! )
(2) அடுத்து, இங்கிலாந்தைச் சேர்ந்த ஃபிர்த் (Firth), ஹாலிடே (Halliday), சிங்க்ளயர் (Sinclair) போன்றோர் முன்வைக்கிற மொழியியல் கோட்பாடு. இக்கோட்பாடு ஆங்கிலத்தில் "Systemic Grammar" என்று அழைக்கப்படுகிறது. ஒருவர் மற்றவர் பேச்சை அல்லது மொழியைப் புரிந்துகொள்வதில் மூன்று முக்கியக் கூறுகள் உண்டு. ஒன்று , 'குறிப்பட்ட தொடர் அல்லது வாக்கியம்("Text") ' ; இரண்டு, அத்தொடருக்கு அல்லது வாக்கியத்திற்கு முந்தைய, பிந்தைய தொடர்கள் அல்லது வாக்கியங்கள் (Co-text)' ; மூன்று, குறிப்பிட்ட தொடர் அல்லது வாக்கியம் முன்வைக்கப்படுகிற மொழிசாராக் கூறுகள்( Context).
இம்மூன்றின் உதவியினால்தான் ஒருவர் மற்றொருவர் முன்வைக்கின்ற தொடரை அல்லது வாக்கியங்களின் பொருண்மையைப் புரிந்துகொள்ளமுடிகிறது.
செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள 'மொழித்திறன்' என்பது குறிப்பிட்ட சொல் அல்லது தொடரின் முந்தைய , பிந்தைய சொற்கள், தொடர்கள், பத்திகள் ஆகியவற்றன் அடிப்படையில்தான் அமைகிறது. இதைத்தான் செய்யறிவுத்திறனில் 'சூழற் சாளரம் "(Context Window") என்று அழைக்கிறார்கள். ஆனால் மனித மூளைக்கும் செய்யறிவுத்திறனுக்கும் இடையில் உள்ள ஒரு அடிப்படை வேறுபாடு, மனித மூளைக்கு ஒரு தொடரின் முன்னால் அல்லது பின்னால் அமைகிற ஒரு சில சொற்கள் போதும். ஏனெனில் சூழல்சார் அறிவு (Pragmatic knowledge) துணை செய்கிறது. பேசப்படுகிற சூழலை அல்லது பேசப்படுகிற பொருளைப் புரிந்துகொள்ளும் திறன் (உலக அறிவு - Ontology ) மனித மூளைக்கு உள்ளது. இதில் டெல் ஹைம்ஸ் (Dell Hymes) என்பவரின் கருத்தாடல் திறன் (Communicative Competence) என்பதும் அடங்கும்.
ஆனால் இந்த அறிவு கணினிக்கு இல்லாததால், அதற்கு ஒரு சொல் அல்லது தொடருக்கு முந்தைய , பிந்தைய ஆயிரக்கணக்கான , லட்சக்கணக்கான சொற்கள் அல்லது தொடர்கள் தேவைப்படுகின்றன. எனவேதான் செய்யறிவுத்திறன் மென்பொருளில் அமைந்துள்ள பெரும்மொழிமாதிரியில் கோடியே கோடியே சொற்கள் இடம்பெறுகின்றன. இச்சொற்களின் எண்ணிக்கை மேலும் கூடக்கூட, அதன் 'மொழித்திறமும்' கூடும்.
ஆகவே, மொழியியலின் அடிப்படைகளே செய்யறிவுத்திறனில் அமைந்துள்ள பெரும்மொழிமாதிரிகளில் நிலவுகின்றன. மொழியியல், கணினிமொழியியல் ஆகியவற்றின் கடந்த 150 ஆண்டுகால வளர்ச்சியே செய்யறிவுத்திறனின் பெரும்மொழிமாதிரிகளை (Pre-trained Large Language Model - LLM) உருவாக்குவதற்கு அடிப்படையாக அமைந்துள்ளன.
தமிழ்போன்ற மொழிகளில் கோடியே கோடி மின்தரவுகள் கிடைக்காததால்தான், ஆங்கிலத்திற்கு இருக்கிற மொழித்திறன் தமிழுக்குச் செய்யறிவுத்திறன் மென்பொருள்களில் கிடைப்பதில்லை. அதற்கு மாற்றுவழியே 'நுட்ப மேம்படுத்தல் (Fine-tuning) ' என்னும் வழிமுறையாகும். இந்த வழிமுறையில் மொழிதரவுகளுடன் மொழி இலக்கண அறிவும் இணைத்துக் கொடுக்கப்படுகிறது. இதற்குக் குறிப்பிட்ட மொழியின் இலக்கண அறிவும் மொழியியல் ஆய்வுமுறையும் தேவைப்படுகின்றன.
மேற்கூறியவை எல்லாம் முதல் காரணத்தில் அடங்கும். இரண்டாவது காரணம், ஒரே மொழியியல் கோட்பாட்டின் நோக்கத்தை வெவ்வேறு வழிமுறைகளில் நிறைவேற்ற முயல்வது ஆகும். மாற்றிலக்கண மொழியியல் கோட்பாட்டில் வெவ்வேறு வழிமுறைகளைக் கொண்ட மொழியியல் பிரிவுகள் உண்டு. அதுபற்றிய வேறொரு பதிவைப் பின்னால் இடுகிறேன்.

0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India