கணினியின் செய்யறிவுத்திறன் மென்பொருள் (AI - Chat GPT, Google BARD) எவ்வாறு ஒரு மொழியைக் கற்றுக்கொள்கிறது? ( நேரம் கிடைக்கும்போது, ஆர்வமுள்ளவர்கள் படிக்கலாம்!)
-------------------------------------------------------------------------------------------------------
ஒரு மொழியைக் கற்றுக்கொள்வதிலும் தேவையான மொழிச்செயல்பாடுகளை மேற்கொள்வதிலும் . . . மனித மூளைக்கும் கணினிக்கும் இடையில் வேறுபாடு உண்டா? இதுபற்றி நான் புரிந்துகொண்டதை மிகச் சுருக்கமாக இங்கு முன்வைக்கிறேன்.
இயற்கைமொழித்திறன் மனித மூளைக்கே உரிய ஒரு சிறப்புத்திறன் ( biological one - genetically determined) . குழந்தை பிறக்கும்போதே அதனுடைய மூளையில் எந்தவொரு இயற்கைமொழியையும் தாய்மொழியாகப் பெற்றுக்கொள்ளவும், பின்னர் தனது வாழ்க்கையில் மேலும் பல மொழிகளைக் கற்றுக் கொள்ளவும் ஒரு தனி மொழிப்புலன் (Language Faculty) அமைந்துள்ளது. இலட்சக்கணக்கான ஆண்டுகளின் ஊடே மனித மூளையின் பரிணாம வளர்ச்சியில் ( human brain evolution) பெற்ற திறன் இது! மனித மூளையின் சிந்தனைத் திறனும் (Cognition Domain / Faculty) இதற்கு மிகவும் அடிப்படை.
தான் பிறந்து ஒரு சில ஆண்டுகளில் - மூன்று அல்லது நான்கு ஆண்டுகளில் - ஒரு குழந்தை தனது தாய்மொழியைப் பெற்றுக்கொள்கிறது (Acquired) . இதற்கு மிக முக்கிய அடிப்படையாக அமைவன இரண்டு. ஒன்று, மனித மூளையில் இயற்கையாக இடம்பெற்றுள்ள மொழிப்புலன். மற்றொன்று, குழந்தை பெற்று வளர்கிற சூழலில் அதைச் சுற்றிப் பேசப்படுகிற மொழியின் தரவுகள் (language data) ! இதில் முதலாவதே மிக மிக முக்கியமானது. ஆனால் இரண்டாவது இல்லையென்றாலும் மொழி வளர்ச்சி ஏற்படாது. ஆனால், இந்தப் புறச்சூழலில் குழந்தை பயன்படுத்துகிற மொழித்தரவுகள் ஒப்பீட்டு அளவில் மிகக் குறைவே! குறைந்த காலத்தில், குறைந்த தரவுகளைக்கொண்டு, குழந்தை தனது தாய்மொழியின் மொழித்திறனைப் பெரும் அளவில் பெற்றுக்கொள்கிறது!
கணினித்துறையில் இன்று செய்யறிவுத்திறன் மென்பொருள்களில் - சேட் ஜி பி டி, கூகுள் பார்டு போன்ற மென்பொருள்களில் - இடம்பெற்றுள்ள மொழித்திறனுக்கான பயிற்சி வேறுபட்டது ஆகும்.
கணினிக்கு ஒரு மொழியின் தரவுகள் கோடியே கோடி அளவில் அளிக்கப்படுகிறது. இந்தத் தரவுகளில் இடம்பெற்றுள்ள சொல், தொடர்பற்றிய இலக்கண அறிவு அந்தத் தரவுகளில் இடம்பெற்றிருக்காது. ஆனால் மொழிச் செயல்பாடுகளுக்குத் தேவை . . . சொல், தொடர், பொருண்மைபற்றிய அறிவு. இந்த அறிவு இல்லாமலேயே எவ்வாறு கணினி மொழியைக் கற்றுக்கொள்கிறது? இங்குதான் அறிவியல் வளர்ச்சியின் பயன்பாடு நமக்குத் தெரிகிறது.
ஒரு சொல்லின் பண்பை , அது பயின்றுவருகிற கோடியே கோடி மொழித்தொடர்களின் வழியே . . . புள்ளியியல் ( Probability ) அடிப்படையில் . . . ஆழ்நிலைக் கற்றல் ( Deep Learning) என்ற வழிமுறையைக்கொண்டு . . . கணினி கற்றுக்கொள்கிறது. ஒரு சொல் அமையும் தொடர்களில் அந்தச் சொல்லுக்கு முன்னும் பின்னும் வருகிற சொற்களையும் கவனத்தில்கொண்டு, அந்தக் குறிப்பிட்ட சொல்லின் பண்புகளைக் கணினி பெற்றுக்கொள்கிறது. இவையெல்லாம் குறிப்பிட்ட மென்பொருளில் எண்களாக ( Vector) . . . திசைப்பண்பு உடைய தரவுகளாகக் ( Vector Database) கணினி மாற்றி வைத்துக்கொள்கிறது.
அதாவது, மனிதமூளையில் உள்ள மொழி பெறும் திறனைக் கணினியானது இன்று கணினித்துறையில் உருவாக்கப்பட்டுள்ள Deep Learning architecture என்ற ஒரு வழிமுறை மூலம் பெற்றுக்கொள்ள முயல்கிறது. ஆனால் அந்த வழிமுறைக்குக் கோடியே கோடி தரவுகள் தேவைப்படுகின்றன. ஆனால் மனித மூளைக்குக் குறைந்த தரவுகள் போதும். ஏனெனில் அதனுடைய மொழிப்புலன் மிகச் சிறப்பானது.
இந்தத் திசைப்பண்புடைய எண்களை (Vectors) அடிப்படையாகக்கொண்டே செய்யறிவுத்திறன் மென்பொருள் நாம் முன்வைக்கிற மொழித் தொடர்களைத் தெரிந்துகொண்டு, செயல்படுகிறது. இது தனிச்சொல்லுக்குமட்டுமல்ல . . . தொடர்களுக்கும் பொருந்தும். இந்தச் சொல்லுக்கு முன்னால் எந்தச் சொல் முன் வரும், எந்தச் சொல் பின்வரும் என்ற அறிவோடு, ஒரு தொடருக்கு முன் எந்தத் தொடர் முன்வரும், எந்தத் தொடர் பின்வரும் என்பதையும் அது தெரிந்துகொள்கிறது. இதுவே செய்யறிவுத்திறனின் ''மொழியறிவு'' ஆகும். மனித மூளைபோன்று ஒரு சொல், அல்லது தொடரின் இலக்கணம், பொருண்மை ஆகியவற்றை அடிப்படையாகக்கொண்டு, இந்த மென்பொருள்கள் மொழியைக்கற்றுக்கொள்ளவில்லை என்பதைத் தெளிவாகப் புரிந்துகொள்ளவேண்டும். இந்த மொழிமாதிரியை ஆங்கிலத்தில் Pre-training - Unsupervised learning through Deep Learning architecture என்று அழைப்பார்கள்.
தொடர்ந்து மேற்குறிப்பிட்ட மொழிமாதிரியைத் மேம்படுத்திவருகிறார்கள். ஆனால் இந்த மொழி மாதிரிகள் (Large Language model - LLM) பல மொழிகளுக்கும் பயன்படும்வகையில் உருவாக்கப்படுகின்றன.
ஒரு குறிப்பிட்ட மொழிக்கு இந்த மென்பொருளின் மொழித்திறனை மேலும் வளர்க்கவேண்டுமென்றாலோ அல்லது ஒரு குறிப்பிட்ட பணிக்குப் பயன்படுத்த வேண்டுமென்றாலோ , இந்த மாதிரியை மேலும் செம்மைப்படுத்தவேண்டும். இதை ஆங்கிலத்தில் fine-tuning என்று கூறுவார்கள். இந்தப் பயிற்சியில் கணினிக்கு மொழித் தரவுகளைக்கொடுக்கும்போது, இலக்கண அறிவையும் பொருண்மையும் சேர்த்துக் கொடுத்தால் சிறப்பு. எனவே இதை ஆங்கிலத்தில் Supervised Learning என்று கூறுவார்கள். ஏற்கனவே உருவாக்கப்பட்ட பெரிய மொழி மாதிரிகளை மேலும் நுட்பமாக ஆக்கிக்கொள்ளும் (Fine tuning of Pre-trained Language model) முயற்சியே இது.
தமிழுக்கு சேட் ஜி பி டி, கூகுள் பார்டு போன்ற செய்யறிவுத்திறன்களின் இடம் பெறும் மொழிமாதிரிகளை அடிப்படையாகக்கொண்டு, தமிழ்மொழியின் மொழியியல் கூறுகளை உள்ளடக்கிய மொழித்தரவுகளை உருவாக்கி, நாம் தமிழுக்கான கணினி மொழிமாதிரிகளைச் சிறப்பாக உருவாக்க முடியும்; உருவாக்கவேண்டும். அதாவது முன்னயே பயிற்றுவிக்கப்பட்ட மொழிமாதிரிகளை மேலும் மேலும் மொழியியல் பண்புகளோடு கூடிய மொழித்தரவுகளை அளித்து பயிற்றுவிக்கவேண்டும். இதுபோன்ற மொழிமாதிரிகள் (Pre-trained Large Language Model) பல தற்போது கிடைக்கின்றன. அவற்றைத் தேர்ந்தெடுத்து, தமிழுக்கு அந்த மாதிரிகளைக் குறிப்பாக, நுட்பமாகப் பயிற்றுவிக்கவேண்டும்.
இதுபோன்ற ஒரு முயற்சியை - fine-tuning of a Pre-trained model - தற்போது சென்னை ஐ ஐ டி ( Chennai - IIT ) Indic BERT என்ற திட்டத்தின் அடிப்படையில் 11 இந்திய மொழிகளுக்கு மேற்கொண்டுவருகிறது. இந்த BERT என்பது ஏற்கனவே இருக்கிற ஒரு மொழிமாதிரி - LLM ஆகும். இதுபோன்ற முயற்சிகளைத் தமிழ்மொழி ஆராய்ச்சி நிறுவனங்கள் தமிழுக்காக மேற்கொள்ளவேண்டும். எங்கள் நிறுவனத்தின் ஆய்வில் தற்போது இதுவும் அடங்கும்; முயல்கிறோம். பார்க்கலாம்.
0 கருத்துகள்:
கருத்துரையிடுக