செய்யறிவுத் திறன் (Artificial Intelligence- AI) - பெரிய மொழி மாதிரி (Large Language Model - LM) - மொழியியலும் இலக்கணமும் (Linguistics and Grammar) . . . ~ ந.தெய்வ சுந்தரம்

செய்யறிவுத் திறன் (Artificial Intelligence- AI) - பெரிய மொழி மாதிரி (Large Language Model - LM) - மொழியியலும் இலக்கணமும் (Linguistics and Grammar) . . .

-------------------------------------------------------------------------------------------------------

செய்யறிவுத் திறனைத் தமிழ்வழியே பயன்படுத்துவதற்கு முதல் அடிப்படைத் தேவை . . .

1) தமிழ்வழியே நாம் அனுப்புகிற தொடர்களைப் பெரிய மொழி மாதிரி புரிந்துகொள்ளவேண்டும் (Natural Language Understanding - NLU) . அவ்வாறு புரிந்துகொண்டால்தான் செய்யறிவுத்திறன் கொண்ட அறிவுச் சேமிப்புக் கொள்கலத்தில் (Knowledge Store) நாம் அனுப்பிய ஐயம், வினாவுக்குத் தகவல்களைப் பெறமுடியும்.

2) அடுத்து, அந்தச் சேமிப்புக் கலத்திலிருந்து கிடைக்கப்பெற்ற தகவல்களைத் தமிழ்வழியே நமக்குத் தரவேண்டும் (Natural Language Generation - NLG).

மேற்கூறிய இரண்டு திறன்களையும் உள்ளடக்கிய பெரிய மொழி மாதிரி உருவாக்கப்பட்டால்தான் நமது நோக்கம் நிறைவேறும்.

Open AI (ChatGPT) , Google (Gemini) , Facebook (Meta AI) போன்றவற்றை உருவாக்கியுள்ள பன்னாட்டு நிறுவனங்கள் ஆங்கிலம், சீனம், ஜெர்மன், ஜப்பானியம் போன்ற மொழிகளுக்கு மேற்கூறிய மொழித்திறனை உருவாக்கி வைத்துள்ளன. எனவே இந்த மொழிகளைப் பயன்படுத்துவர்கள் மேற்குறிப்பிட்ட செயற்கை அறிவுத்திறனின் பயன்பாடுகளைப் பெறமுடிகின்றது.

ஆனால் நாம் . . . தமிழ்மொழியைத் தாய்மொழியாகக்கொண்ட நாம் . . . அந்தப் பயன்பாட்டை முழுமையாகப் பெறமுடியவில்லை. அதற்குக் காரணம் . . . மேற்கூறிய பெரிய மொழி மாதிரிகள் தமிழ்மொழி அறிவை முழுமையாகப் பெறவில்லை. எனவே ஆங்கிலம் வழியேதான் நம்மால் அவற்றை இப்போது பெறமுடிகிறது. சில செயற்கை அறிவுத்திறன் மென்பொருள்கள் நாம் தமிழில் கேட்கும் ஐயங்களைப் புரிந்துகொள்கின்றன (NLU). ஆனால் அவற்றிற்கான விடைகள் அல்லது விளக்கங்களை ஆங்கிலம் வழியே அளிக்கின்றன (NLG).

மேற்கூறிய நிறுவனங்களின் பெரிய மொழி மாதிரிகளுக்கு முழுமையான அல்லது தேவையான பயிற்சிகளை அளிப்பதற்கான தமிழ் மின் தரவுகள் (Tamil E-data - Digital data) இன்று தமிழில் இல்லை. இந்த மொழி மாதிரிகள் எல்லாம் தங்களுக்கு ஒரு மொழியின் மின்தரவுகள் கோடியே கோடி . . . நூற்றுக்கணக்கான கோடித் தரவுகள் (Trillions of trillions) அளிக்கப்பட்டால் . . . அவை தாமாகவே அந்த மொழியின் மொழியியல், இலக்கண நுட்பங்களை அறிந்துகொள்ளும். அந்த மொழி நுட்பத்தின் பண்புகள் (Parameters) பல கோடி அளவில் இருக்கும். அதற்குக் கொடுக்கப்படுகிற நுட்பங்களின் அளவு கூடக் கூட அதன் மொழித்திறன் (Language Capacity) அதிகரிக்கும். இந்த வழிமுறையில் அது குறிப்பிட்ட மொழியின் கோடியே கோடி அமைப்பு நுட்பங்களைப் பெற்றுக்கொள்ளமுடியும். அதற்கான திறன் அதற்கு உருவாக்கி அளிக்கப்பட்டுள்ளது.

தமிழில் அந்த அளவு மின் தரவுகள் இல்லாததால், மேற்கூறிய மொழிமாதிரிகள் தமிழ் அறிவைத் தேவையான அளவு பெறமுடியவில்லை.

அப்படியென்றால் . . . அதற்கு மாற்றுவழி கிடையாதா? என்ற ஐயம் எழலாம். மாற்றுவழி இருக்கிறது. அவற்றிற்கு அளிக்கப்படுகிற மின்தரவுகள் குறைவாக இருந்தால், இருக்கின்ற மின்தரவுகளை மொழியியல், இலக்கண அறிவோடு அந்த பெரிய மொழி மாதிரிகளுக்கு அளிக்கலாம். அதாவது மின்தரவுகள் அளவு குறைவாக இருந்தால், மின்தரவோடு அளிக்கப்படுகிற மொழி அறிவு அதிகமாக இருக்கவேண்டும். அளவும், இலக்கண அறிவும் தலைகீழ் விகிதத்தில் (Inversely proportional) அமைகின்றன.

இதைத்தான் நுட்பப்-பயிற்சி (Fine-Tuning) என்று அழைக்கிறார்கள். ஆகவே மின்தரவு அளவில் குறைவாக இருக்கிற தமிழுக்கு . . . மொழியியல், இலக்கண நுட்பங்களை இருக்கிற மின் தரவுகளோடு இணைத்துக்கொடுத்து . . . மேற்கூறிய பெரிய மொழி மாதிரிகளுக்குத் தமிழ்மொழி அறிவை அளிக்கலாம். தமிழ் இன்று குறைவான மின் தரவு கொண்ட ஒரு மொழி (Low Resource language) என்பதை மறுக்க இயலாது.

பிறந்த குழந்தைகள் மூன்று வயதுக்குள் தங்களது தாய்மொழியை எளிமையாகக் கற்றுக்கொள்கின்றன. குழந்தைகளுக்கு மொழி கற்றுக் கொடுக்கப்- படுவதில்லை. மேலும் அதற்குக் கிடைக்கிற மொழித் தரவுகளும் குறைவே. இதைத்தான் மொழியியல் அறிஞர் நோம் சாம்ஸ்கி ''தூண்டதலின் வறுமை அல்லது வரட்சி (Poverty of Stimulus) '' என்று கூறுவார். ஆனால் குழந்தைக்கு பிறக்கும்போதே அதன் மூளையில் இயற்கையாகவே நீடிக்கிற ''பொதுமை இலக்கண அறிவானது (Universal Grammar - UG)'' குறைந்த தரவில் நிறைந்த மொழி அறிவைக் (Less data, more knowledge) கொடுக்கிறது.

ஆனால் கணினிக்கு ? . . . ஒன்று, கோடியே கோடி மொழித் தரவுகளை அளிக்கவேண்டும். அல்லது, மொழியியல், இலக்கண அறிவோடு கூடிய மின்தரவுகளை அளிக்கவேண்டும்.

தற்போது நமக்கு மேற்குறிப்பிட்ட இரண்டாவது வழியே கைகொடுக்கும். எனவே தமிழுக்கான செய்யறிவுத்திறன் ஆய்வை மேற்கொள்கிறவர்கள் மேற்கூறிய இரண்டாவது முறையில் முயல்வதே பயன் அளிக்கும். மொழியியல், இலக்கண அறிவு என்பது ஒரு தனித்துறை. தமிழ்மொழி பேச, எழுதத் தெரிந்ததாலே ஒருவருக்குத் தமிழ்மொழியின் அமைப்பு நுட்பங்கள் முறையாகத் தெரிந்திருக்கும் என்று கருதிவிடக்கூடாது. இந்தத் துறை தனித் துறை. இதில் முறையான பயிற்சி பெற்றவர்களே மேற்கூறிய பணியைச் செய்யமுடியும்.

இல்லையென்றால் . . . செய்யறிவுத்திறன் மென்பொருள்களையும் ஆங்கிலம் வழியேதான் தமிழர்கள் பயன்படுத்தமுடியும். தமிழின் தேவையும் பயன்பாடும் மேலும் மேலும் குறைந்துவிடும். இதைத்தான் பாரதி ''மெல்லத் தமிழினிச் சாகும்'' என்று கூறியுள்ளார்!

------------------------------------------------------------------------------------------------------

பேராசிரியர் கருணாகரன் அவர்கள் : தமிழ் வளர்ச்சித்துறை இதனை முனைப்போடு செயற்படுத்த முன்வரவேண்டும ...ஆக்கப்பணிகள் மேற்கொள்ள வேண்டும் ..இது நம்மைப் போன்றோரின் எளிய..முறைசார் வேண்டுகோள் ந. தெய்வ சுந்தரம் : பேராசிரியர் அவர்களே. தங்கள் ''கனவு'' நனவாக வேண்டுமென்றால் . . . (1) இன்றைய நிலையில் செய்யறிவுத்திறன் மென்பொருளுக்குத் தமிழ்மொழி அறிவை அளிப்பதற்குப் போதுமான மின் தரவுகள் இல்லாததால், மொழியறிவுடன் கூடிய தமிழ் மின் தரவின் தேவை உணரப்படவேண்டும். கணினித் தொழில்நுட்பத்தின் வளர்ச்சியே இப்பிரச்சினையைத் தீர்த்துவிடும் எனக் கருதுவது சரி இல்லை. (2) தொல்காப்பியம், நன்னூல் போன்ற சிறப்பான பழந்தமிழ் இலக்கண அறிவையும் உள்ளடக்கி, இன்றைய தமிழ்மொழியின் அமைப்பு அல்லது இலக்கணத்தை முழுமையாக ஆய்வுசெய்து ''இன்றைய தமிழ் இலக்கணம்'' முழுமையாக உருவாக்கப்படவேண்டும். இப்பணி மிகப்பெரிய ஒரு பணி என்பதில் ஐயம் இல்லை. (3) இந்த இரண்டாவது பணிக்கு உறுதியாக இன்றைய மொழியியல் அறிவு அல்லது ஆய்வுமுறை மிக மிகத் தேவை என்பது உணரப்படவேண்டும். மேற்கூறியவற்றைத் தமிழக அரசும் தமிழ்மொழி, மொழியியல் ஆய்வுலகமும் முழுமையாக உணர்ந்து செயல்படவேண்டும். இந்த முயற்சி ஒரு மிகப் பெரிய ஆய்வு முயற்சி. ஏராளமான தொழில்நுட்ப அறிஞர்களும், தமிழ்மொழி, மொழியியல் அறிஞர்களும் தேவை. மனித வளமும் நிதி வளமும் அதிகம் தேவை. தகுந்த முயற்சிகள் சரியான திசையில் மேற்கொள்ளப்பட்டால், உறுதியாக ஒரே வருடத்தில்கூட இந்த முயற்சி வெற்றிபெறும்.

ந.தெய்வ சுந்தரம்

என்னைப்பற்றி

Language Technology

Recent Posts

திங்கள், 15 ஜூலை, 2024

செய்யறிவுத் திறன் (Artificial Intelligence- AI) - பெரிய மொழி மாதிரி (Large Language Model - LM) - மொழியியலும் இலக்கணமும் (Linguistics and Grammar) . . .

0 கருத்துகள்:

கருத்துரையிடுக

Popular Posts

Archives