மொழியியலும் செயற்கை அறிவுத்திறன் மென்பொருளும் (Linguistics and Artificial Intelligence in NLP) ~ ந.தெய்வ சுந்தரம்

மொழியியலும் செயற்கை அறிவுத்திறன் மென்பொருளும்

--------------------------------------------------------------------------------------------------------------------------
மொழியியலின் மிக முக்கியமான ஒரு ஆய்வு . . .  குறிப்பாக நோம் சாம்ஸ்கியின் (Noam Chomsky) ஆய்வு . . .  ஒரு குழந்தை தான் பிறந்ததிலிருந்து மூன்று அல்லது நான்கு வருடங்களுக்குள் தான் பிறந்து வளர்கிற சூழலின் மொழியை எவ்வாறு கற்றுக்கொள்கிறது? 

மனிதர் அல்லாத பிற விலங்கினங்களுக்கு இந்த மொழித்திறன் உண்டா?

சாம்ஸ்கியின் மொழியியல் கோட்பாட்டின் வருகைக்குமுன்னர் . . . மொழி கற்றல் துறையில் எஸ். எஃப். ஸ்கின்னர் (B.F. Skinner) என்ற உளவியலாளர் முன்வைத்த மொழி கற்றல் கோட்பாடே  (Operant Conditioning - Verbal Behavior) ) செல்வாக்கு செலுத்திவந்தது. இவருடைய கோட்பாட்டின்படி, பிறந்து வளர்கிற குழந்தைக்கு அக்குழந்தையின் சுற்றுப்புறத்தில் உள்ளவர்களின் கருத்தாடல் வழியேதான் குறிப்பிட்ட மொழித்திறன் (linguistic Competence) கிடைக்கிறது. குழந்தையானது சுற்றுப்புறத்தார் பேசும் மொழியைச் சரிவர உள்வாங்காமல் தவறு செய்தால், சுற்றுப்புறத்தார் அக்குழந்தைக்குத் தவறைச் சுட்டிக்காட்டி, சரியானதைக் கற்றுக்கொடுப்பார்கள். தூண்டல் - எதிர்விளைவு (Stimulus - Response) என்பதே இங்குச் செயல்படுகிறது. குழந்தைக்குத் தன் தாய்மொழியின் அத்தனை இலக்கணமும் சொற்களஞ்சியமும் அது வளர்கிற சூழலில் வாழ்பவர்களின் தூண்டுதலால்தான் கிடைக்கிறது என்று கூறப்பட்டது. 

ஆனால் சாம்ஸ்கி முன்வைத்த வினா . . .  ஒரு குழந்தை பிறந்து வளர்கின்ற சூழலில் பேசுபவர்கள்,  குறிப்பிட்ட மொழியின் அத்தனை இலக்கணத்தையும் கற்றுக்கொடுக்கிற அல்லது வெளிப்படுத்துகிற மொழித்தொடர்களையும் அவற்றிற்குரிய இலக்கணத்தையும் கற்றுக்கொடுக்கமுடியுமா? குழந்தைக்கு அத்தனை தரவுகளும் கிடைக்குமா? முடியாது என்பதே சாம்ஸ்கியின் முடிவு!

சாம்ஸ்கியின் அடிப்படை  வினா . . . பிறந்த குழந்தையானது மிகக் குறைந்த காலகட்டத்தில் ( short period) . . .  மிகக் குறைந்த மொழித்தரவுகளைக் கொண்டு( less data)  . . .  எவ்வாறு தனது தாய்மொழிக்கான அறிவுத்திறனை நிறைவாகப் பெறுகிறது? 

அவருடைய கோட்பாட்டின்படி . . .  மனித மூளைக்குள் ஒரு மொழிப்புலன் (Language domain ) இருக்கிறது. இந்தப் புலத்தில் அத்தனை மனித இயற்கை மொழிகளுக்குமுரிய பொது இலக்கணம் (Universal Grammar - UG) இடம் பெற்றிருக்கிறது. எந்தவொரு குறிப்பிட்ட மொழியின் இலக்கணமும் இது இல்லை. இதுவே குழந்தைக்குத் தனது சூழல் மொழியை . . .  தாய்மொழியை . . . பெற்றுக்கொள்ள -  கற்றுக்கொள்ள (not learned but acquired)  இல்லை! உதவுகிறது. இந்த மொழிப்புலனானது மனிதர்களின் மரபணு சார்ந்த (genetically dependent) ஒன்று ஆகும். இது வேறு எந்த உயிரினத்திற்கும் கிடையாது!  

குழந்தையின் இந்த மொழிப்புலனே - மொழியைப் பெற்றுக்கொள்ளும் ஒரு கருவியே - குழந்தைக்கு அதன் சுற்றுப்புறத்தில் குறைந்த அளவே மொழித்தரவுகள் கிடைத்தாலும் . . .  அவற்றைக்கொண்டு தனது மொழிக்குத் தேவையான முழு அறிவையும் பெற்றுக்கொள்கிறது. அதாவது, பிறந்த குழந்தைக்கு மூளை வளர்ச்சியும் ( மொழிப்புலன் நன்கு செயல்பட), சுற்றுப்புற மொழித்தரவுகளைக் கேட்டுப் பயன்படுத்தத் தேவையான செவித்திறனும் இருந்தால், அக்குழந்தை குறைந்த மொழித்தரவுகளில் , குறைந்த காலகட்டத்தில், தனது மொழியைப் பெற்றுக்கொள்ளும். 

மரபணுசார்ந்த இந்த மனித மூளையின் மொழிப்புலன் எவ்வாறு செயல்பட்டு, குறைந்த காலகட்டத்தில் நிறைந்த மொழியறிவைப் பெற்றுக்கொள்கிறது என்பதேக் கண்டறிவதே மொழியியலின் அடிப்படை நோக்கம் என்று சாம்ஸ்கி கூறுகிறார்!       

இந்த மொழிப்புலனில் இடம் பெற்றுள்ள மொழி அறிவு என்ன? அதாவது பிறக்கும்போதே குழந்தைக்கு உள்ள உள்ளார்ந்த மொழி அறிவு என்ன? பின்னர், அந்த அந்த அறிவையும் தனது சுற்றுப்புறத்தில் கிடைக்கிற அம்மொழிக்கான தரவுகளையும் கொண்டு, தனது மொழியின் இலக்கணத்தைக் குழந்தை எவ்வாறு பெற்றுக்கொள்கிறது? 

ஒருவர் ஒரு மொழித்தொடரைக் கேட்கும்போது, அதை அவரது மூளை எவ்வாறு பெற்று, அதை ஆய்வுசெய்து, அதில் புதைந்துள்ள பொருண்மையை - பொருளை- எவ்வாறு கண்டறிகிறது? அவர் ஒரு கருத்தை வெளிப்படுத்தத் தேவையான மொழித்தொடர்களை எவ்வாறு உருவாக்குகிறார்? 

கடந்த 75 ஆண்டுகளுக்குமேல் இந்தத் தேடல் நடைபெற்றுவருகிறது. இதுபோன்ற ஆய்வே மொழி ஆய்வு! மொழி அறிவியல்! 

இந்தத் தேடலுக்கு . . .  இன்றைய செயற்கை அறிவுத்திறன் மென்பொருட்கள் ( இயந்திரம் கற்றல் - Machine Learning, நரம்புவலைப்பின்னல் - neural network,  ஆழ்நிலை கற்றல் -  Deep Learning )  விடை ஏதும் அளிக்கிறதா? 

இல்லை என்றே நான் கருதுகிறேன்! மேற்குறிப்பிட்ட செயற்கை அறிவுத்திறன் மென்பொருட்கள் எல்லாம் . . .  மேற்கண்ட மனித இயற்கைமொழி சார்ந்த ஆய்வில் நீடிக்கிற எந்தவொரு வினாவுக்கும் விடை அளிக்கவில்லை! 

ஆனால் கணினிக்கு இயற்கைமொழிகளைக் கற்றுக்கொடுப்பதற்காக ( மனித மூளைபோன்று தானாக அது பெற்றுக்கொள்ளாது!)  கடந்த 100 ஆண்டுகளுக்குமேலாக நீடித்துவருகிற கணினிமொழியியல் ஆய்வு தனது ஆய்வைத் தொடர்ந்துவருகிறது. அது வேறு!

மேற்கூறிய வழிகளிலெல்லாம் மொழி ஆய்வுசெய்து, உண்மைகளைக் கண்டறிந்து, நமக்குத் தேவையான மொழிசார் மென்பொருள்களை உருவாக்கும் திறனைக் கொடுப்பதற்கு காலம் எடுக்கலாம்! ஆனால் இன்று தேவைப்படுகிறதே . . .  என்ன செய்யலாம்? அதற்கு விடைதருவதே மேற்கூறிய மென்பொருள்கள்!

இந்த மென்பொருள்களுக்காக வடிவமைக்கப்படுகிற மொழி ஆய்வு வடிவமானது (Language Modelling - LM)  . . .  கோடியே கோடி மொழித்தரவுகளையும் அதிலிருந்து ஒரு குறிப்பிட்ட சூழலில் ஒரு  குறிப்பிட்ட தொடரானது இதைத்தான் குறிப்பிடுகிறது, இதற்கு விடையாக அல்லது அடுத்த தொடராக இந்த அமைப்பு உடைய மொழித்தொடர்தான் பொருத்தமாக இருக்கலாம் என்று முடிவு செய்யக்கூடிய அனுமானப் புள்ளியியல்  (Probabilistic Statistics) அறிவையும் அடிப்படையாகக் கொள்கிறது! குறிப்பிட்ட தொடரின் இலக்கண அமைப்பு, இடம்பெற்றுள்ள சொற்கள் ஆகியவற்றின் அடிப்படையில் அத்தொடரின் பொருண்மையைப் (meaning) புரிந்துகொள்வதில்லை! 

இந்த மொழி ஆய்வு வடிவத்தை முன்வைப்பதிலேயே இன்று பல முன்னேற்றங்கள் ஏற்பட்டுள்ளது. மேற்பார்வைக்கு உட்பட மொழி கற்றல் (Supervised Learning) , மேற்பார்வைக்கு உட்படாத மொழி கற்றல் (Unsupervised Learning) . அல்லது இவை இரண்டையும் உள்ளடக்கிய மொழி கற்றல் (Semi-supervised Learning) என்று பல படிநிலைகள் இன்று தாண்டப்பட்டுள்ளன. இறுதியாக, இன்று ஆழ்நிலை கற்றல் (Deep Learning based on neural net work)  என்ற வளர்ச்சிநிலையை இது எட்டியுள்ளது. 

இவை எல்லாவற்றிற்கும் அடிப்படை ஒன்றே ! ஒரு சொல் அல்லது தொடர்பற்றி அறிந்துகொள்வதற்கு . . .  அதற்கு முந்தைய சொல் அல்லது தொடரைக் கண்டறிய வேண்டும்! அதற்கு N-gram model, HMM (Hidden Markov's model) ,  அதையும் தாண்டி ஆழ்நிலை கற்றல் மாதிரி (Deep Learning model) . இவை அனைத்துக்கும் ஒரே நோக்கம் . . .  ஒரு சொல் அல்லது தொடரின் இருப்பை அறிந்துகொள்ள, எவ்வாறு அதற்கு முந்தைய சொல் அல்லது தொடர் உதவுகிறது என்பதே ஆகும்! மாறாக, அந்தச் சொல் அல்லது தொடரின் அமைப்பை அல்லது இலக்கணத்தையோ அல்லது பொருண்மையையோ கண்டறிவதில்லை! அதாவது மொழி ஆய்வு (language analysis) இல்லை! மொழித்தொடரின் வருகையை (occurrence of a word or phrase) அல்லது இருப்பை, அனுமானப் புள்ளியியல்கொண்டு கண்டறிவதே ஆகும்! 

எடுத்துக்காட்டாக, கணினிமொழியியல் ஆய்வில் ''படித்தான் '' என்ற சொல்லைக் கொடுத்தால், அதை 'படி (அடிச்சொல்)  + த்த் (இறந்தகால விகுதி) + ஆன் (திணை - எண் - பால் விகுதி)'' என்று பிரித்து, அதனடிப்படையில் இதை 'வினைமுற்று' என்று கணினி சொல்வதற்கான ஒரு வழிமுறையை (algorithm) அதற்குக் கொடுப்பார்கள். 

ஆனால் மேற்குறிப்பிட்ட செயற்கை அறிவுத்திறன் மென்பொருள்களில் பல்வேறு முறைகள் முன்வைக்கப்படுகின்றன. 'படித்தான்' போன்ற ஏராளமான வினைமுற்றுச் சொற்களைக் கொடுத்து, ''வினைமுற்று'' என்ற வெளியீடுகளையும் கொடுத்து, பின்னர் இந்த உள்ளீடு எவ்வாறு வினைமுற்று என்ற வெளியீடாக வருகிறது என்பதற்கான ''அறிவை'' (procedures / algorithm) அனுமானப் புள்ளியியல் அடிப்படையில் கணினிக்குக் கொடுப்பார்கள். ஆனால் இதற்குக் கோடான கோடி எடுத்துக்காட்டுக்கள், மொழித்தரவுகள் வேண்டும். 

மற்றொரு முறை, 'படித்தான்' போன்ற கோடியே கோடி சொற்களைக் கொடுத்து, கணினியே அனுமானப்புள்ளியியல் அடிப்படையில் அதை இனம் கண்டறியக் கற்றுக்கொள்ளும். இதற்கும் மேற்சொன்ன அதே அடிப்படைதான் - அதாவது முந்தைய சொல் அல்லது தொடரின் உதவிகொண்டுதான் இப்பணி நடைபெறும். ஆனால் நரம்புவலைப்பின்னல் ( neural network)  அடிப்படையில் இது நடைபெறுவதால் வேகமாகவும் மிகத் துள்ளியமாகவும் விடை கிடைக்கும். ஆனால் இதுவும் மொழியறிவை ஆய்வதின் அடிப்படையில் நடைபெறவில்லை என்பது மிகவும் கவனிக்கத்தக்கது!

கோடியே கோடி தரவுகளைத் திரட்டும் திறன்( web grabbing) , அவற்றைச் சேமித்துவைக்கும் திறன் (data storage) , கோடிக்கணக்கான தரவுகளையும் மிகக் குறைந்த நேரத்தில் ஆய்வு செய்யும் திறன் (processing capacity) , அனுமானப் புள்ளியியல் வளர்ச்சி (Probabilistic Statistics) ஆகியவற்றை உள்ளடக்கிய இன்றைய கணினித்தொழில்நுட்பம் இன்றைய வளர்ச்சிக்கு வழிவகுத்துள்ளது! உடனடி மொழிச் செயல்பாடுகளுக்கு உதவுகிறது! இதை மறுக்கமுடியாது! மேலும் மனித குலத்தின் தொழில்நுட்ப வளர்ச்சி பாராட்டவேண்டிய ஒன்று! 

ஆனால் . . .  எந்த வழிமுறை இருந்தால் என்ன? நமக்கு முடிவுதானே தேவை!  பயன்பாடுதான் முக்கியம்!இப்படியும் சிந்திக்கலாம்! தவறு இல்லைதான்! 

ஆனால் இந்த வளர்ச்சியெல்லாம் மனித இயற்கைமொழிகளின் அமைப்புபற்றியோ, அவற்றிற்கிடையே உள்ள ஒற்றுமை வேற்றுமைகள் பற்றியோ, குழந்தையானது தான் பிறந்து மூன்று ஆண்டுகளுக்குள் எவ்வாறு குறைந்த மொழித்தரவில் நிறைந்த மொழி அறிவைப் பெற்றுக்கொள்கிறது என்பதுபற்றியோ - எந்தவித மேல் விளக்கத்தையும் தரவில்லை என்பது குறிப்பிடத்தக்கது! 

இந்த இடத்தில் ஒன்றைத் தெளிவுபடுத்துகிறேன்! இன்றைய இந்தச் செயற்கை அறிவுத்திறன்கொண்ட கணினித் தொழில்நுட்பத்தின் வளர்ச்சியை நான் மறுக்கவில்லை! உடனடிப் பயன்பாடு ஏராளம். . .  ஏராளம்! சில வேளைகளில் அறிவியலுக்குமுன்னர் சில தொழில்நுட்பங்கள்  வளர்ந்துவிடலாம்! பின்னர் அதற்கான அறிவியல் வளரலாம்!

விரும்பு

கருத்துத் தெரிவி

பகிர்

ந.தெய்வ சுந்தரம்

என்னைப்பற்றி

Language Technology

Recent Posts

புதன், 8 மார்ச், 2023

மொழியியலும் செயற்கை அறிவுத்திறன் மென்பொருளும் (Linguistics and Artificial Intelligence in NLP)

0 கருத்துகள்:

கருத்துரையிடுக

Popular Posts

Archives