செவ்வாய், 9 மே, 2023

மொழி வடிவ மாதிரி ( Language Modelling) - மூளையும் செயற்கை அறிவுத்திறனும் ( Human brain and Artificial Intelligence)

மொழி வடிவ மாதிரி ( Language Modelling) - மூளையும் செயற்கை அறிவுத்திறனும் ( Human brain and Artificial Intelligence)

--------------------------------------------------------------------------------------------------------------------------

உலகில் கணினித் துறையில் இன்று வியக்கத்தக்க மாபெரும் சாதனைகளைச் செயற்கை அறிவுத்திறனை அடிப்படையாகக்கொண்ட மென்பொருள்கள் (Artificial Intelligence oriented software) நமக்கு வழங்கிக் கொண்டிருக்கிறது. அறிவியல் ஆய்வு, பொருளாதார உற்பத்தி, வணிகம், அரசு நிர்வாகம் என்று பல்வேறு துறைகளில் செயற்கை அறிவுத் திறனின் பயன்பாடு பெருகிவருகிறது.

 

மனித உழைப்பைச் சாராமலும் வேகமாகவும் ஒரு பணியைச் செயற்கை அறிவுத்திறன் மென்பொருள் செய்துமுடிக்கிறது என்றால், உறுதியாக எவரும் அந்த மென்பொருளைப் பயன்படுத்தவே விரும்புவார்கள். இதில் தவறும் ஒன்றும் இல்லை!

 

குறிப்பாக, லாப நோக்கையே அடிப்படையாகக் கொண்ட பன்னாட்டுப் பெரும் நிறுவனங்கள் - உற்பத்தி, வணிகம் இரண்டிலும் - இதற்கே முக்கியத்துவம் அளிக்கும்.

 

மொழிசார்ந்த பணிகளிலும் (language dependent tasks) இன்று செயற்கை அறிவுத்திறன் ஈடுபடுத்தப்பட்டு வருகிறது. கூகுள், மைக்ரோசாஃப்ட் போன்ற பன்னாட்டு நிறுவனங்கள் இத்துறையில் மிகுந்த கவனம் செலுத்திவருகின்றன.

 

இதற்கு முக்கியக் காரணம் . . . நாம் எந்த ஒரு துறைதொடர்பான வினாவை - ஐயத்தை- எழுப்பினாலும் கணினிமென்பொருள் தேவையான விடையை - விளக்கத்தைத் தரவேண்டும். அதற்கு முதல் தேவை . . . நாம் முன்வைக்கிற வினா அல்லது ஐயத்தை நமது மொழிவாயிலாகத்தான் வெளிப்படுத்துகிறோம். அதைக் கணினி புரிந்துகொள்ளவேண்டும். கணினியும் அதற்கான விடையை அல்லது விளக்கத்தை மொழிவாயிலாகத்தான் வெளிப்படுத்துகிறது. அதற்குக் கணினிக்கு மொழித் திறன் (Language Capacity) வேண்டும்.

 

அதாவது . . . மொழித்தொடர்களின் பொருளை - பொருண்மையை- கணினி பொருள் மயக்கமில்லாமல் ( meaning ambiguity) புரிந்துகொள்ளவேண்டும். நாம் முன்வைக்கிற விரும்புகிற கருத்தை நமது மொழியில் புதைத்துத்தான் ( encoding) வெளிப்படுத்துகிறோம். இவ்வாறு நாம் புதைத்து அனுப்புகிற மொழித் தொடர்களிலிருந்து கணினிமென்பொருளானது புதைக்கப்பட்டுள்ள பொருண்மையை - பொருளை- மீட்டெடுக்கவேண்டும் ( decoding).

 

இவ்வாறு குறிப்பிட்ட ஒரு பொருண்மையை மொழியில் புதைத்து வெளிப்படுத்தவும், மீண்டும் அந்தப் பொருண்மையை மொழியிலிருந்து மீட்டெடுக்கவும் நமது மூளையில் உள்ள மொழி அறிவு - பேச்சொலி, எழுத்து, சொல், தொடர் பற்றிய அறிவு - உதவுகிறது. ஒவ்வொரு மொழிக்கும் இதுதொடர்பான தெளிவான விதிகள் - இலக்கணம் - நீடிப்பதாலும் அந்த அறிவை நமது மூளையின் மொழிப்புலன் பெற்றிருப்பதாலும் இது சாத்தியமாகிறது.

 

ஒவ்வொரு மனிதமொழியும் தனக்கென்று ஒரு கட்டமைப்பை - இலக்கணத்தை- பெற்றிருப்பதால்தான் இது சாத்தியமாகிறது. இந்தக் கட்டமைப்புபற்றிய அறிவை மொழியாய்வு, இலக்கண ஆய்வு நமக்குத் தருகிறது. இந்தக் கட்டமைப்பே மொழி வடிவ மாதிரி ( Language Modelling) என்று அழைக்கப்படுகிறது.

 

மனித மூளையில் நிலவுகிற இந்த மொழி வடிவ மாதிரியை ஆராய்ந்து, உணர்ந்து, அதைக் கணினியின் மின்னணு மூளைக்குத் தகுந்தவகையில் எவ்வாறு மாற்றியமைப்பது என்பதுபற்றிய அறிவியல்துறையே கணினிமொழியியல் துறையாகும். இந்தவகை ஆய்வு கடந்த 100 ஆண்டுகளுக்குமேலாக நடைபெற்று வருகிறது. இதில் மிக முக்கியமானது என்றால் மொழி அமைப்புக்கும் (Grammar / Structure) பொருண்மைக்கும் (Meaning) இடையில் உள்ள உறவை அறிவதே ஆகும்.

 

மேற்கண்ட ஆய்வில் தற்போது ஒரு புதிய வளர்ச்சி- மாற்றம் ஏற்பட்டுள்ளது. இதற்கு அடிப்படை இன்றைய கணினி அறிவியலின் வளர்ச்சியே ஆகும். கோடியே கோடி மொழித்தரவுகளை விநாடியில் பெற்றுத்தரக் கூடிய இணையமும் அவற்றை ஆய்வுசெய்யக்கூடிய கணினித்திறனும் வியக்கத்தக்க அளவில் வளர்ந்து உள்ளன.

 

இதன் பயனாகவே இன்று நிகழ்தகவுப் புள்ளியியல் ( Probabilistic Statistics) அறிவை அடிப்படையாகக்கொண்டு, ஒரு குறிப்பிட்ட சொல்லை நாம் முன்வைத்தால் அதற்கு முன்னர் எந்தச் சொல் அதிகமாக வரும், அதற்குப் பின்னர் எந்தச் சொல் அதிகமாக வரும் என்பதை ஒரு சில மில்லி விநாடிகளில் கணினியால் இன்று கூற முடியும். இதற்கு நாம் மேலே கூறியுள்ள மொழிக் கட்டமைப்பு - இலக்கணம் - தேவை இல்லை.

 

ஏனென்றால் மொழி அமைப்பு - பொருண்மை என்ற அடிப்படையில் கணினி செயல்பட வேண்டியதில்லை. இந்த வழிமுறையில் எதிர்பார்க்கிற விடை 100 விழுக்காடு சரியாக இல்லை என்றாலும் கவலை இல்லை; 80 விழுக்காடு சரியாகக் கிடைத்தாலே போதும்; நாம் அதில் உள்ள குறைகளைக் களைந்துகொள்ளலாம்.

 

ஆக, ஒருவர் ஒரு குறிப்பிட்ட மொழியில் தனது தேவையை முன்வைக்கும்போது, அந்த மொழிபற்றிய இலக்கண, சொற்களஞ்சிய அறிவு இல்லாமலேயே . . . அல்லது அந்த அறிவையெல்லாம் புள்ளியியல் அடிப்படையிலான ஒரு அறிவாக மாற்றி . . . நிகழ்தகவுப் புள்ளியியலை அடிப்படையாகக்கொண்டே நமக்குத் தேவையான விடையை- விளக்கத்தை - கணினியால் அளிக்கமுடியும்.

 

குறிப்பாக, ஒரு 100 பக்கத் தமிழ்க் கட்டுரையை ஜப்பானிய மொழியில் மொழிபெயர்க்கவேண்டும் என்றால், தமிழ் - ஜப்பானிய மொழி அறிவு தேவை இல்லை. கூகுளில் தமிழ் - ஆங்கில மொழிபெயர்ப்பு வசதி இருக்கிறது. ஆங்கில - ஜப்பானிய மொழிபெயர்ப்பு வசதி இருக்கிறது. எனவே, தமிழ்ப் பக்கங்களை முதலில் கூகுளின் உதவியுடன் ஆங்கிலத்தில் விநாடியில் மொழிபெயர்த்துக் கொள்ளலாம். அந்த மொழிபெயர்ப்பு 70 விழுக்காடு சரியாக இருந்தாலும் கவலை இல்லை; அதை ஆங்கிலம் தெரிந்த ஒருவர், தேவையான 30 விழுக்காட்டுச் சிக்கல்களை நீக்கிவிடலாம். அதில் கிடைத்த ஆங்கில மொழிபெயர்ப்பைக் கூகுளின் ஆங்கில - ஜப்பான் மொழிபெயர்ப்பு மென்பொருளின் உதவியுடன் விநாடியில் மொழிபெயர்த்துவிடலாம். அந்த ஜப்பானிய மொழிபெயர்ப்பின் காணப்படும் தவறுகளையும் ஒரு ஜப்பானியரைக்கொண்டு திருத்திக்கொள்ளலாம்.

 

அதாவது , தமிழ் , ஆங்கிலம், ஜப்பானியம் ஆகிய மொழிகளின் சொற்களஞ்சியம், இலக்கணம் ஆகியவைபற்றிய அறிவை அடிப்படையாகக் கொள்ளாமலேயே . . . தமிழ் - ஜப்பானிய மொழிபெயர்ப்பைப் பெறமுடியும். இதுவே இன்று கணினியின் மொழிச்செயல்பாட்டின் அடிப்படை ஆகும். அதாவது, ஒரு கட்டுரையில் அமைகிற எழுத்து, சொல், தொடர் ஆகியவற்றின் இலக்கண அமைப்பையும் பொருண்மை வெளிப்பாட்டையும் பற்றிய மொழி அறிவு இல்லாமலேயே . . . அவற்றின் நிகழ்தகவுப் புள்ளியியல் அடிப்படையிலான வருகையை அடிப்படையாக வைத்தே . . . நமது மனிதமூளை செய்கிற மொழிச் செயல்பாட்டை மேற்கொள்ளமுடியும்.

 

எனவே, எதிர்காலத்தில் ஒரு மாணவர் எந்த ஒரு மொழியிலும் - மொழிக் கல்வி இல்லாமலேயே - தனது மொழிச்செயல்பாட்டை மேற்கொள்ளமுடியும். ஒரு கணினியின் முன் உட்கார்ந்துகொண்டே - தனது கருத்தைப் பல மொழிகளில் வெளிப்படுத்தமுடியும். அல்லது 70 விழுக்காடு கணினி சரியாகச் செய்கிறது என்றால், எந்த மீதி 30 விழுக்காட்டு அறிவைக் கணினியால் பெறமுடியவில்லையோ, அதைமட்டும் அவர் கற்றுக்கொண்டால் போதும். கணினிக்குக் கொடுக்கப்படுகிற உரையைச் சற்று முன்பதிப்பு (pre-edit ) செய்யவேண்டியது இருக்கும்.

 

அதாவது, நமது மொழிநடையைக் கணினிக்கு ஏற்றவகையில் சற்று மாற்றவேண்டியிருக்கும். அதுபோலக் கணினி அளிக்கிற உரையைச் சற்றுப் பின்பதிப்பு (post edit) செய்யவேண்டியிருக்கும். இந்த இரண்டுமே எதிர்காலத்தில் நமது மொழிநடையானது கணினியைச் சார்ந்து இருக்கலாம். கணினியானது நமது மொழிநடையைத் தீர்மானிக்கலாம்.

இனி, ஒரு மொழியின் அமைப்பை இலக்கணம், மொழியியல் அடிப்படையில் கற்றுக்கொள்ளத் தேவை இருக்காது; மாறாக, நிகழ்தகவுப் புள்ளியியல், கணினியியல் இரண்டிலும் தேர்ச்சிபெற்றாலே போதும்.

 

இங்கு, மீண்டும் நாம் தெளிவாகத் தெரிந்து கொள்ளவேண்டியது . . நமது மனித மூளையில் உள்ள இயற்கைமொழி அமைப்புபற்றிய ஆய்வுக்குத் தேவை இருக்காது. மாறாக, கோடியே கோடி மொழித்தரவுகளை முறையாகக் கணினிக்கு அளித்து, நிகழ்தகவுப் புள்ளியியல் அடிப்படையிலான மாதிரி வடிவங்களை உருவாக்கிக் கணினிக்கு அளித்தால் போதும் என்ற ஒரு 'வளர்ச்சிநிலை' ஏற்படும்.

 

நமது மூளையில் நீடிக்கிற நமது மொழி அமைப்பு (Language Modelling) வடிவம் வேறு; கணினிக்கு அளிக்கப்படுகிற மொழி அமைப்பு வடிவம் வேறு.

 

இன்று மொழித்தொழில்நுட்பத்துறையில் இரண்டுவகையான ஆய்வுமுறைகள் - கணினிமொழியியல் (Computational Linguistics) ஆய்வுமுறை , நிகழ்தகவு ஆய்வுமுறை (Probabilistic Statistics) - நிலவுகின்றன. முதல்வகை ஆய்வுமுறைக்கு ஒரு மொழியின் இலக்கண அமைப்புபற்றிய அறிவு தேவை; இரண்டாவது வகையான ஆய்வுமுறைக்கு நிகழ்தகவுப் புள்ளியியல், தரவுத்தளம் அமைப்பு, கணினியின் செயல்திறன் ஆகியவைபற்றிய அறிவு தேவை.

 

கணினிமொழியியல் அடிப்படையிலான ஆய்வுமுறையிலும் புள்ளியியல் பயன்படுகிறது. ஆனால் அதன் நோக்கமும் பயன்பாடும் வேறு.

இந்தச் செயற்கை அறிவுத்திறன் வடிவமைப்பிலும் பல வேறுபட்ட வழிமுறைகள் பின்பற்றப்படுகின்றன ( Supervised / Unsupervised Machine Learning, Neural Network, Deep Learning etc... ). பொதுவாக, இவை எல்லாவற்றிற்கும் மிக அடிப்படையானவை மிகப் பெருந்தரவுத்தளம் (Mega Corpus ), நிகழ்தகவுப் புள்ளியியல் ( Probabilistic Statistics ) , கணினியின் செயல்பாட்டுத்திறன்(Computing Power) ஆகியவை ஆகும்.

மனிதமூளை மொழி கற்றல், கற்பித்தல்பற்றி வேறுபட்ட பல கோட்பாடுகள் மொழியியலில் நிலவுகின்றன. ஸ்கின்னர் கருத்து, சாம்ஸ்கி கருத்து என்று பல கருத்துக்கள் நீடிக்கின்றன. ஆனால் இங்கு நாம் பேசுவது . . . கணினியானது மனிதமொழியைக் கற்றுக்கொள்வது ஆகும். மனிதனுக்கும் கணினிக்கும் இடையிலான கருத்துப்பரிமாற்றத்திற்குக் கணினிக்கு மனிதமொழி இலக்கண அறிவு தேவை இல்லை! மொழி இலக்கணம், சொற்களஞ்சியம் ஆகியவற்றைக் கற்றுக்கொடுக்காமலேயே கணினிக்குப் பெருந்தரவு, புள்ளியியல் அடிப்படையில் மொழியைக் கற்றுக்கொடுக்கமுடியும் என்ற ஒரு கோட்பாடு. இவ்வாறு கற்றுக்கொடுக்கமுடியும் என்றால் எதிர்காலத்தில் ஒருவர் கணினிப்பயன்பாட்டில் தனது தாய்மொழி தவிர வேறு எந்தமொழியையும் கற்றுக்கொள்ளவேண்டாம்! ஆனால் மனிதர்களுக்கிடையிலான கருத்துப்பரிமாற்றத்திற்கு மொழி அறிவு தேவைப்படும். ஆனால் ஒருவர் மற்றொருவருடன் கணினிவழி, கணினி உதவியுடன் கருத்துப்பரிமாற்றம் செய்துகொள்ளலாமே! கணினி ஒரு மொழிபெயர்ப்பாளர்போன்று செயல்படலாமே!

 


0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India