செய்யறிவுத் திறன்
மென்பொருளுக்கு அடிப்படையான பெரிய மொழி மாதிரியும் தமிழ்மொழியும் . . .
--------------------------------------------------------------------------------------------------------------------------------------------
ஜிபிடி, ஜெம்னி, கிளாட், லாமா போன்ற பெரிய மொழி
மாதிரிகள் (Large Language Models - LLM) இன்று செய்யறிவுத்திறன் மென்பொருள்களுக்கு (Artificial Intelligence - AI ) அடிப்படையான
மொழித்திறன் மென்பொருள்கள் ஆகும். நூற்றுக்கணக்கான இயற்கைமொழிகளுக்கு இவை
பயன்படுகின்றன.
தமிழ்மொழிக்கும் மேற்குறிப்பிட்ட பெரிய
மொழி மாதிரிகள் நன்கு பயன்படுகின்றன. ஆனால் பிற ஐரோப்பிய மொழிகளுக்கோ சீனமொழிக்கோ
அவை மிகத் திறமையாகப் பயன்படுவதுபோல் . . . தமிழுக்கு முழுமையாகப் பயன்பட மேலும் பல பணிகளை நாம்
செய்யவேண்டியுள்ளது. மேலே குறிப்பிட்ட பெரிய மொழிமாதிரிகள் எல்லாம் கோடியே கோடி
மொழித்தரவுகளின் உதவியுடன் உருவாக்கப்பட்டவை; பயிற்றுவிக்கப்பட்டவை (Pre-trained models). கோடியே
கோடி டாலர்களை முதலீடு செய்து உருவாக்கப்பட்டவை!
மொழிபெயர்ப்பு உட்பட
பல்வேறு மொழிசார்ந்த பணிகளுக்கு மேற்கூறிய மென்பொருள்கள் பயன்படுகின்றன. கட்டணம்
இல்லாமல் ஒருவர் பயன்படுத்தவேண்டுமென்றால் , ஒரு நாளைக்குக் குறிப்பிட்ட எண்ணிக்கையில் சொற்கள்
அடங்கிய உரைகளையே எழுதவோ, மாற்றவோ, பதிப்பிக்கவோ முடியும்.
ஓரளவுக்குமேல் பயன்படுத்த நாம் அதற்கு மாதாமாதம் 20-25 அமெரிக்க டாலர்வரை கட்டணம் செலுத்தவேண்டும். மேலும்
சில குறிப்பிட்ட மொழிசார்ப் பணிகளை மேற்கொள்ள நிறுவனங்கள் தனியே அதற்குக் கட்டணம்
செலுத்திப் பயன்படுத்திக் கொள்ளலாம். ஆனால் அதுபோன்று தனிநபர்கள் கட்டணம்
செலுத்துவது கடினம். நமது கண்முன்னே இதுபோன்ற மிகச் சிறப்பான மென்பொருள்கள்
இருந்தாலும், கட்டணப்
பிரச்சினையால் தனிநபர்கள் செய்யறிவுத்திறன் மென்பொருள்களை முழுமையாகப் பயன்படுத்த
முடியாது.
காசு . . . காசுதான். உலகில் சுமார் 10, 15 பன்னாட்டு நிறுவனங்கள் -
மைக்ரோசாப்ட், கூகுள், ஐபிஎம், பேஸ்புக் போன்றவற்றின்
உருவாக்கங்களே இவை. இவை அனைத்தும் வணிக மாதிரிகளே (Business
Models) !
குப்பனும் சுப்பனும் இந்த வணிக மாதிரிகளை முழுமையாகப் பயன்படுத்தமுடியாது! மாறாக, இங்குள்ள பெரிய வணிக நிறுவனங்கள் பணம் செலுத்திப் பயன்படுத்தலாம். அல்லது தங்களுக்குக் கீழே உள்ள நுகர்வோர்களிடம் பணம் வாங்கிக்கொண்டு - அதாவது வணிக மாதிரிகளாக மாற்றி - அவர்கள் பயன்படுத்துவதற்கு உதவலாம். மேலும் அவை 'பன்னாட்டு நிறுவனங்களின்' தரகர்களாகவே செயல்படமுடியும்!
மேலும் தமிழ்மொழிக்குத்
தேவையான அத்தனை மொழிச்செயல்பாடுகளையும் மேற்கொள்வதற்கு இந்த பெரிய மொழி மாதிரிகள்
தற்போதைய நிலையில் உதவுவது இல்லை! இதற்கு இரண்டு காரணங்கள் . . . ஒன்று தமிழில்
மின்னிலக்கத் தரவுகள் (Digital Data) போதுமானதாக இல்லை! மற்றொன்று தமிழுக்குச் 'சந்தை மதிப்பு (Market Value) ' இல்லை! எனவே பன்னாட்டு
நிறுவனங்கள் தற்போது தமிழ்மொழிக்குத் தங்கள் ''காசை'' செலவழிக்கமாட்டார்கள்!
அப்படியென்றால் என்ன
செய்வது? மேற்கூறிய
பயிற்றுவிக்கப்பட்ட பெரிய மொழி மாதிரிகளை மேலும் நுட்பமாகப் (Fine-tuning) பயிற்றுவிக்கவேண்டும்.
அவற்றின் மொழித்திறனைத் தமிழுக்குத் தேவையான அளவுக்குப் பயன்படுத்த
மேம்படுத்தவேண்டும்.
சரி . . . நாம் கடுமையாக முயற்சிசெய்து, தேவையான மொழித்தரவுகளைச்
சேகரிக்கிறோம் என்று வைத்துக்கொள்வோம். இருக்கிற ஏதாவது ஒரு பெரிய மொழி மாதிரியைத்
தேர்ந்தெடுத்து, அதை
மேம்படுத்தவேண்டும். இவற்றில் பேஸ்புக்கின் 'லாமா' மட்டுமே கட்டற்ற மென்பொருள். மற்றவை அவ்வாறு
கிடையாது! ஜிபிடி -யைப் பயன்படுத்த வேண்டும் என்றால் . . . இவ்வளவு சொற்களுக்கு
இவ்வளவு கட்டணம் என்று அது நிர்ணயித்துள்ளது. மேலும் அவ்வாறு மேம்படுத்தியபிறகும் . . . நடைமுறைப் பயன்பாட்டிலும்
இவ்வளவு சொற்களுக்கு இவ்வளவு கட்டணம் என்று அது காசு வசூலிக்கும்!
'லாமா'-வை
மேம்படுத்தவேண்டுமென்றாலும், அந்த மென்பொருளைத் தரவிறக்கம் செய்து, தமிழ்மொழித்தரவுகளின்
உதவியுடன் மேம்படுத்த பெரிய அளவிலான கணினிக் கட்டமைப்பு வசதி வேண்டும்!
இலட்சக்கணக்கில் பணம் தேவை! அல்லது அமேசான் போன்ற நிறுவனங்களின் கணினியைக்
குறிப்பிட்ட நேரத்திற்கு 'வாடகைக்கு' எடுத்துப் பயன்படுத்தலாம்.
அதற்கும் பணம் தேவை!
தமிழகத்தின் பெரிய வணிக
நிறுவனங்கள் இப்பணியை மேற்கொள்ளலாம். ஆனால் வணிக நோக்கில் பயன் உண்டா என்றுதான்
அவை சிந்திக்கும்! 'வணிக
மாதிரிகளைத்தான்' அவை
முன்வைக்கும்!
இன்று உலகில் பெரிய
பன்னாட்டு நிறுவனங்கள் இந்தச் செயற்கை அறிவுத்திறனை லாப நோக்கில் பயன்படுத்த
முனைகின்றன. ஆனால் ஒரு சாதாரணக் குடிமகனால் அவ்வாறு செய்யமுடியாது. பெரிய
அரண்மனையைக் கண்டு, பெருமூச்சு
விடுவதுபோல, இந்த
மென்பொருள்களையும் கண்டு, பெருமூச்சு
விடவேண்டியதுதான்! இவற்றின்
திறனைத் தமிழுக்காக மேலும் வளர்க்கவோ, அல்லது பயன்படுத்தவோ . . . பணம் . . . பணம் . . . டாலர்களில் தேவை!
தமிழகத்தில் பெரிய மொழி
மாதிரியின் தொழில்நுட்பத்திறனைத் தெரிந்தவர்கள் பலர் இருக்கின்றனர். அதில் ஐயமே
இல்லை! ஆனால் . . . பணம்?
இன்றைய செய்யறிவுத்திறன்
மென்பொருள் தொழில்நுட்பத்தைச் செயல்படுத்தி, தமிழ் மக்களுக்காகவோ தமிழ் வளர்ச்சிக்காகவோ செயல்பட . . . இன்று நம்மால் முடியுமா? அல்லது அந்தப் பன்னாட்டு
நிறுவனங்களையே எதிர்பார்த்துக்கொண்டுதான் இருக்கவேண்டுமா?
ஆனால் ஒன்று உறுதி . . . தமிழ்நாட்டில் உள்ள
உள்ளூர் கடைகளின் வணிகத்தை
. . . அமேசான்
போன்ற பன்னாட்டு நிறுவனங்கள் கைப்பற்றியதுபோல . . . சிற்றுந்து, ஓட்டல் சாப்பாடு சேவை
போன்றவற்றை பன்னாட்டு நிறுனவங்கள் கைப்பற்றியதுபோல . . . இனி தமிழுக்கான கணினிவழிச்
சேவைகளையும் மென்பொருள் உருவாக்கத்தையும் பன்னாட்டு நிறுவனங்களே கைப்பற்றும்! வேறு
வகையிலான காலனியமே நீடிக்கும்!
எந்தவொரு அறிவியல், தொழில்நுட்ப
வளர்ச்சியையும் நாம் ஆதரிக்கவேண்டும்! அதில் ஐயம் இல்லை! ஆனால் அந்த வளர்ச்சியை
அனைவரும் பயன்படுத்தி . . . உள்ளூர்த் தேவைகளை நிறைவேற்றும் தேசிய உற்பத்தியை
மேம்படுத்தும் வகையில் அது அமையவேண்டும்! தற்போதைய செய்யறிவுத்திறன்
தொழில்நுட்பத்தின் வளர்ச்சி . . . பன்னாட்டு நிறுவனங்களின் காலனிய ஆதிக்கத்தையே
கொண்டு வந்து சேர்க்கிறது!
எனவே, செய்யறிவுத்திறன்
மென்பொருள்களின் வளர்ச்சியை . . . அரசியல் பொருளாதாரத்தோடு இணைத்துப் பார்க்கவேண்டும்!
இது வெறும் அறிவியல், தொழில்நுட்ப
வளர்ச்சி இல்லை! பன்னாட்டு நிறுவனங்களின் புதியதொரு காலனிய ஆதிக்கம்!
அறிவியல், தொழில்நுட்ப வளர்ச்சியும்
தேவை! அதேவேளையில் பன்னாட்டு நிறுவனங்களின் காலனிய விரிவாக்கமும் கூடாது!
0 கருத்துகள்:
கருத்துரையிடுக