புதன், 26 ஜூலை, 2023

கணினியின் செய்யறிவுத்திறன் மென்பொருள் (AI - Chat GPT, Google BARD) எவ்வாறு ஒரு மொழியைக் கற்றுக்கொள்கிறது?

 கணினியின் செய்யறிவுத்திறன் மென்பொருள் (AI - Chat GPT, Google BARD) எவ்வாறு ஒரு மொழியைக் கற்றுக்கொள்கிறது? ( நேரம் கிடைக்கும்போது, ஆர்வமுள்ளவர்கள் படிக்கலாம்!) 

-------------------------------------------------------------------------------------------------------

ஒரு மொழியைக் கற்றுக்கொள்வதிலும் தேவையான மொழிச்செயல்பாடுகளை மேற்கொள்வதிலும்  . . .  மனித மூளைக்கும் கணினிக்கும் இடையில் வேறுபாடு உண்டா? இதுபற்றி நான் புரிந்துகொண்டதை மிகச் சுருக்கமாக இங்கு முன்வைக்கிறேன்.

இயற்கைமொழித்திறன் மனித மூளைக்கே உரிய ஒரு சிறப்புத்திறன் ( biological one - genetically determined) . குழந்தை பிறக்கும்போதே அதனுடைய மூளையில் எந்தவொரு  இயற்கைமொழியையும் தாய்மொழியாகப்  பெற்றுக்கொள்ளவும், பின்னர் தனது வாழ்க்கையில் மேலும் பல மொழிகளைக் கற்றுக் கொள்ளவும் ஒரு தனி  மொழிப்புலன் (Language Faculty) அமைந்துள்ளது. இலட்சக்கணக்கான ஆண்டுகளின் ஊடே மனித மூளையின் பரிணாம வளர்ச்சியில் ( human brain evolution)  பெற்ற திறன் இது! மனித மூளையின் சிந்தனைத் திறனும் (Cognition Domain / Faculty) இதற்கு மிகவும் அடிப்படை.  

தான் பிறந்து ஒரு சில ஆண்டுகளில்  -  மூன்று அல்லது நான்கு ஆண்டுகளில் - ஒரு குழந்தை தனது தாய்மொழியைப் பெற்றுக்கொள்கிறது (Acquired) . இதற்கு மிக முக்கிய அடிப்படையாக அமைவன இரண்டு. ஒன்று, மனித மூளையில் இயற்கையாக இடம்பெற்றுள்ள மொழிப்புலன். மற்றொன்று, குழந்தை பெற்று வளர்கிற சூழலில் அதைச் சுற்றிப் பேசப்படுகிற மொழியின் தரவுகள் (language data) ! இதில் முதலாவதே மிக மிக முக்கியமானது. ஆனால் இரண்டாவது இல்லையென்றாலும் மொழி வளர்ச்சி ஏற்படாது. ஆனால், இந்தப் புறச்சூழலில் குழந்தை பயன்படுத்துகிற மொழித்தரவுகள் ஒப்பீட்டு அளவில் மிகக் குறைவே! குறைந்த காலத்தில், குறைந்த தரவுகளைக்கொண்டு, குழந்தை தனது தாய்மொழியின் மொழித்திறனைப் பெரும் அளவில்  பெற்றுக்கொள்கிறது! 

கணினித்துறையில் இன்று செய்யறிவுத்திறன் மென்பொருள்களில் - சேட் ஜி பி டி, கூகுள் பார்டு போன்ற மென்பொருள்களில் - இடம்பெற்றுள்ள மொழித்திறனுக்கான பயிற்சி வேறுபட்டது ஆகும்.

கணினிக்கு ஒரு மொழியின் தரவுகள் கோடியே கோடி அளவில் அளிக்கப்படுகிறது. இந்தத் தரவுகளில் இடம்பெற்றுள்ள சொல், தொடர்பற்றிய இலக்கண அறிவு அந்தத்  தரவுகளில் இடம்பெற்றிருக்காது. ஆனால் மொழிச் செயல்பாடுகளுக்குத் தேவை . . .  சொல், தொடர், பொருண்மைபற்றிய அறிவு. இந்த அறிவு இல்லாமலேயே எவ்வாறு கணினி மொழியைக் கற்றுக்கொள்கிறது? இங்குதான் அறிவியல் வளர்ச்சியின் பயன்பாடு நமக்குத் தெரிகிறது.

ஒரு சொல்லின் பண்பை ,  அது பயின்றுவருகிற கோடியே கோடி மொழித்தொடர்களின் வழியே . . .  புள்ளியியல் ( Probability ) அடிப்படையில்  . . .  ஆழ்நிலைக் கற்றல் ( Deep Learning) என்ற வழிமுறையைக்கொண்டு . . .  கணினி கற்றுக்கொள்கிறது. ஒரு சொல் அமையும் தொடர்களில் அந்தச் சொல்லுக்கு முன்னும் பின்னும் வருகிற சொற்களையும் கவனத்தில்கொண்டு, அந்தக் குறிப்பிட்ட சொல்லின் பண்புகளைக் கணினி பெற்றுக்கொள்கிறது. இவையெல்லாம் குறிப்பிட்ட மென்பொருளில் எண்களாக ( Vector)  . . .  திசைப்பண்பு உடைய தரவுகளாகக் ( Vector Database) கணினி மாற்றி வைத்துக்கொள்கிறது. 

அதாவது, மனிதமூளையில் உள்ள மொழி பெறும் திறனைக் கணினியானது  இன்று கணினித்துறையில் உருவாக்கப்பட்டுள்ள Deep Learning architecture  என்ற ஒரு வழிமுறை மூலம் பெற்றுக்கொள்ள முயல்கிறது. ஆனால் அந்த வழிமுறைக்குக் கோடியே கோடி தரவுகள் தேவைப்படுகின்றன. ஆனால் மனித மூளைக்குக் குறைந்த தரவுகள் போதும். ஏனெனில் அதனுடைய மொழிப்புலன் மிகச் சிறப்பானது. 

இந்தத் திசைப்பண்புடைய எண்களை (Vectors) அடிப்படையாகக்கொண்டே செய்யறிவுத்திறன் மென்பொருள் நாம் முன்வைக்கிற மொழித் தொடர்களைத் தெரிந்துகொண்டு, செயல்படுகிறது. இது தனிச்சொல்லுக்குமட்டுமல்ல . . .  தொடர்களுக்கும் பொருந்தும். இந்தச் சொல்லுக்கு முன்னால் எந்தச் சொல் முன் வரும், எந்தச் சொல் பின்வரும் என்ற அறிவோடு, ஒரு தொடருக்கு முன் எந்தத் தொடர் முன்வரும், எந்தத் தொடர் பின்வரும் என்பதையும் அது தெரிந்துகொள்கிறது. இதுவே செய்யறிவுத்திறனின் ''மொழியறிவு'' ஆகும். மனித மூளைபோன்று ஒரு சொல், அல்லது தொடரின் இலக்கணம், பொருண்மை ஆகியவற்றை அடிப்படையாகக்கொண்டு, இந்த மென்பொருள்கள் மொழியைக்கற்றுக்கொள்ளவில்லை என்பதைத் தெளிவாகப் புரிந்துகொள்ளவேண்டும். இந்த மொழிமாதிரியை ஆங்கிலத்தில் Pre-training -  Unsupervised learning through Deep Learning architecture   என்று அழைப்பார்கள். 

தொடர்ந்து மேற்குறிப்பிட்ட மொழிமாதிரியைத் மேம்படுத்திவருகிறார்கள். ஆனால் இந்த மொழி மாதிரிகள் (Large Language model - LLM)   பல மொழிகளுக்கும் பயன்படும்வகையில் உருவாக்கப்படுகின்றன. 

ஒரு குறிப்பிட்ட மொழிக்கு இந்த மென்பொருளின் மொழித்திறனை மேலும் வளர்க்கவேண்டுமென்றாலோ அல்லது ஒரு குறிப்பிட்ட பணிக்குப் பயன்படுத்த வேண்டுமென்றாலோ , இந்த மாதிரியை மேலும் செம்மைப்படுத்தவேண்டும். இதை ஆங்கிலத்தில் fine-tuning  என்று கூறுவார்கள். இந்தப் பயிற்சியில் கணினிக்கு மொழித் தரவுகளைக்கொடுக்கும்போது, இலக்கண அறிவையும் பொருண்மையும் சேர்த்துக் கொடுத்தால் சிறப்பு.  எனவே இதை ஆங்கிலத்தில்  Supervised Learning  என்று கூறுவார்கள். ஏற்கனவே உருவாக்கப்பட்ட பெரிய மொழி மாதிரிகளை மேலும் நுட்பமாக ஆக்கிக்கொள்ளும் (Fine tuning of Pre-trained Language model) முயற்சியே இது. 

தமிழுக்கு சேட் ஜி பி டி, கூகுள் பார்டு போன்ற செய்யறிவுத்திறன்களின் இடம் பெறும் மொழிமாதிரிகளை அடிப்படையாகக்கொண்டு, தமிழ்மொழியின் மொழியியல் கூறுகளை உள்ளடக்கிய மொழித்தரவுகளை உருவாக்கி, நாம் தமிழுக்கான கணினி மொழிமாதிரிகளைச் சிறப்பாக  உருவாக்க முடியும்; உருவாக்கவேண்டும். அதாவது முன்னயே பயிற்றுவிக்கப்பட்ட மொழிமாதிரிகளை மேலும் மேலும் மொழியியல் பண்புகளோடு கூடிய மொழித்தரவுகளை அளித்து பயிற்றுவிக்கவேண்டும். இதுபோன்ற மொழிமாதிரிகள் (Pre-trained Large Language Model) பல தற்போது கிடைக்கின்றன. அவற்றைத் தேர்ந்தெடுத்து, தமிழுக்கு அந்த மாதிரிகளைக் குறிப்பாக, நுட்பமாகப் பயிற்றுவிக்கவேண்டும். 

இதுபோன்ற ஒரு முயற்சியை -  fine-tuning of a Pre-trained model -   தற்போது சென்னை ஐ ஐ டி ( Chennai - IIT ) Indic BERT என்ற திட்டத்தின் அடிப்படையில் 11 இந்திய மொழிகளுக்கு மேற்கொண்டுவருகிறது. இந்த BERT  என்பது  ஏற்கனவே இருக்கிற ஒரு மொழிமாதிரி -  LLM  ஆகும். இதுபோன்ற முயற்சிகளைத் தமிழ்மொழி ஆராய்ச்சி நிறுவனங்கள் தமிழுக்காக மேற்கொள்ளவேண்டும். எங்கள் நிறுவனத்தின் ஆய்வில் தற்போது இதுவும் அடங்கும்; முயல்கிறோம். பார்க்கலாம். 

0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India