செய்யறிவுத்திறனும் தமிழும் (AI and Tamil) - சிக்கல்கள் என்ன?
------------------------------------------------------------------
இன்று உலகில் செய்யறிவுத்திறன் நுழையாத தளமே இல்லை என்ற ஒரு நிலை! அறிவியல், தொழில்நுட்ப வளர்ச்சியில் இது ஒரு உயர் கட்டம்! முன்னோக்கிய பாய்ச்சல்! இதைப் பின்னோக்கிக் கொண்டுசெல்ல முடியாது! எனவே அறிவியல் வளர்ச்சியை விரும்புகிற யாரும் இதற்கு எதிராகப் பேசமாட்டார்கள்!
ஆனால் . . . இந்தத் தொழில்நுட்பம் விரல்விட்டு எண்ணக்கூடிய பன்னாட்டு நிறுவனங்களின் மேலாண்மையின் கீழ்தான் - அவற்றின் கட்டுப்பாட்டில்தான் - இருக்கிறது என்பது 100 விழுக்காடு உண்மை.
நம்மில் ஒருவர் இத்துறையில் மிகச் சிறந்த வல்லுநராக இருக்கலாம். ஆனால் அவரால் ஒரு செய்யறிவுத்திறன் மென்பொருளை - சேட்ஜிபிடி, ஜெமினி போன்ற மென்பொருள்களை உருவாக்கவிடமுடியாது. அதற்குக் கோடானகோடி டாலர்கள் தேவை. மிகப்பெரிய உற்பத்திக் கட்டமைப்பு தேவை. ஆனால் பன்னாட்டு நிறுவனங்களின் இந்த மென்பொருள்களைப் பயன்படுத்தி, நமக்குத் தேவையான செயல்பாட்டுக் கருவிகளை உருவாக்கிக்கொள்ளலாம். நமது பல்வேறு தேவைகளுக்குப் பயன்படுத்தலாம். இது வேறு.
இந்த மென்பொருள்களின் முதுகெலும்பே பெரும்மொழிமாதிரிதான் (Large Language Model - LLM). இவற்றை உருவாக்குவதுதான் பெரும்பணி. கோடியே கோடியே தரவு - மிகப் பெரிய வன்பொருள் கட்டமைப்பு (Hardware infrastructure) தேவை. மொழிகளில்தான் நமக்குத் தேவைப்படும் அறிவும் (subject knowledge) சேமித்து வைக்கப்படுகின்றது. சேமித்த அறிவை நாம் பெறுவதற்குத் தேவையான மொழி அறிவும் மொழித்திறனும் (linguistic knoweldge and language capacity) இந்த மொழித்தரவுகளில்தான் அடங்கியுள்ளது. மொழி அகராதிகளும் இலக்கணமும் நேரடியாக அளிக்கப்படுவதில்லை. மொழித்தரவுகளில் இருந்துதான் அவை பெறப்படுகின்றன. இந்த அடிப்படையில் உருவாக்கப்படுகிற மாதிரியைத்தான் Pre-trained model என்று அழைக்கிறார்கள்.
சேட்ஜிபிடி, ஜெமினி போன்றவற்றின் திறனைப் பயன்படுத்தும் மொழிக்கருவிகளை (application tools) நாம் உருவாக்கிக்கொள்ளலாம். ஆனால் அதற்கும் நாம் இந்த பன்னாட்டு நிறுவனங்களுக்குப் பணம் அளிக்கவேண்டும். சொல் எண்ணிக்கை அடிப்படையில் இப்பணம் கணக்கிடப்படுகிறது. இலவசமாகப் பயன்படுத்துவதற்குக் குறிப்பிட்ட சொல் எண்ணிக்கை குறிப்பிடப்படுகிறது.
மேற்குறிப்பிட்ட மென்பொருள்கள் ஆங்கிலம், சீனம் போன்ற மொழிகளுக்குச் செயல்படுகிற அளவுக்குத் தமிழ் போன்ற மொழிகளுக்குச் செயல்படுவதில்லை. அதற்குக் காரணம் தமிழ் அகராதிச் சொற்களையும் இலக்கணத்தையும் அவை தாமாகவே கற்றுக்கொள்வதற்குத தேவையான தமிழ் மின்னணுத் தரவுகள் முழுமையாக இன்னும் முழுமையாக இவற்றில் இடம்பெறவில்லை. எனவே தமிழ்மொழித்திறன் இவற்றில் இன்னும் முழுமையடையவில்லை. எனவே பல தவறான தமிழ் வாக்கியங்கள் இவற்றில் நீடிக்கின்றன. இதைச் சரிப்படுத்த நீடிக்கிற பெரும்மொழி மாதிரிகளை மேலும் பயிற்றுவிக்கவேண்டும். இதையே Fine-tuning என்று அழைக்கிறார்கள்.
ஆகவே, ஏற்கனவே உருவாக்கப்பட்ட மாதிரிகளைத் தமிழுக்காக மேம்படுத்துவதற்குத் தேவையான தரவுகளைச் சேகரித்தபிறகு, நீடிக்கிற பெரும்மொழி மாதிரிகளைக்கொண்டுதான் நாம் பணியைத் தொடரமுடியும். அதற்கு சில மொழிமாதிரிகள் சொல் எண்ணிக்கை அடிப்படையில் கட்டணம் (payment based on number of tokens - words) கேட்கின்றன. பேஸ்புக்கின் பெரும்மொழிமாதிரி கட்டணமின்றிக் கிடைக்கிறது. ஆனால் அந்த மொழிமாதிரியைத் தரவிறக்கம் செய்து மேம்படுத்த நமக்கு மிகத் திறன் வாய்ந்த கணினிகள் தேவைப்படுகின்றன; இதற்கான பணவசதி என்போன்றவர்களிடம் கிடையாது. இதை (poverty of infrastructure) என்றுகூடக் கூறலாம்! மாற்றுவழி, இதற்கான சேவைகளை அளிக்கும் அமேசான் போன்ற நிறுவனங்களிடம் பணம் செலுத்திப் பெறவேண்டும். இதற்கும் சில லட்சங்கள் தேவைப்படும். அவ்வாறு செலுத்தி மேம்படுத்தியபிறகும் அடிப்படை பெரும்மொழிமாதிரியின் உதவியின்றித் தமிழ்ச் சேவைகளை நம்மால் பெறமுடியாது. அதற்கும் பணம் தேவை. இதை நாம் உருவாக்கும் மென்தபொருள்களுக்குப் பயனர்கள் தருவார்களா? இது ஒரு முக்கியமான வினா!
இதுதான் என் போன்றவர்களுக்கு உள்ள பிரச்சினை! ஆனால் தமிழ் மொழி அறிவை 80, 90 விழுக்காடு தமிழ் இலக்கணவிதிகள்மூலமே அளிக்கமுடியும்; இப்போது அளித்தும் வருகிறோம். இப்போது அளிக்கமுடியாத மொழி அறிவுக்குமட்டும் பெரும்மொழிமாதிரிகளைப் பயன்படுத்தலாம். இது ஒரு வழி. இதற்கு முதலில் தற்போதைய பெரும்மொழிமாதிரிகளில் தமிழ்த் திறன் எந்த நிலையில் , எதற்கு இல்லை என்பதை ஆய்வுசெய்யவேண்டும். பின்னர் அதை அளிப்பதற்கான மொழித்தரவுகளைச் சேகரிக்கவேண்டும். இதற்குத் தமிழ் மொழி அறிவும் (இலக்கணம், அகராதி) , கணினிமொழியியலும் தேவைப்படுகின்றன என்பது எனது கருத்து. இது என் புரிதல். அவ்வளவுதான்!
எனவே, இதுபோன்ற முயற்சிகளை எடுத்து தமிழறிவைப் பெரும்மொழிமாதிரிகளுக்கு அளிப்பது என்பது நமது கடுமையான பணிகள் மட்டுமல்ல, மிகப் பெரிய அளவில் பணமும் தேவை! அப்போதுதான் நம்மால் தற்போதைய செய்யறிவுத்திறனைப் பயன்படுத்தலாம்! இதுதான் அடிப்படையான சிக்கல்!
தொடர்ந்து சிந்திப்போம்! குறைந்த செலவில் மிகுந்த தமிழ் அறிவு! முயல்வோம்!
0 கருத்துகள்:
கருத்துரையிடுக