கணினித்தமிழ் வளர்ச்சிக்குத் தமிழ் இலக்கண அறிவும் மொழியியல் அறிவும் தேவையா? ~ ந.தெய்வ சுந்தரம்

கணினித்தமிழ் வளர்ச்சிக்குத் தமிழ் இலக்கண அறிவும் மொழியியல் அறிவும் தேவையா? ( தமிழ் , மொழியியல் மாணவர்கள், ஆசிரியர்கள், ஆய்வாளர்களுக்கான பதிவு)
--------------------------------------------------------------------------------

இன்று இயற்கைமொழி ஆய்வு, கணினிமொழியியல், மொழித்தொழில் நுட்பம் ஆகிய துறைகள் முக்கியத்துவம் பெற்றுவருகின்றன. கணினிக்கு மனித இயற்கைமொழிகளின் அறிவை அளித்து, அதனோடு நாம் நமது இயற்கைமொழிகளில் உரையாடலாமா? எழுத்துமூலம் உரையாடல், பேச்சுமூலம் உரையாடல் இரண்டிலும் நமது மொழிகளைப் பயன்படுத்தமுடியுமா? என்ற வினாக்கள் முன்வைக்கப்பட்டு, 'முடியும்' என்ற விடையும் தரப்படுகிறது. செவ்வாய் கிரகத்திற்கே விண்கலங்களை மிகத் துல்லியமாக நேரம், பிற இயற்கைவிசைகள் ஆகியவற்றைக் கணித்து அனுப்பும்போது, மொழியைக் கணினிக்குப் புரியவைக்கமுடியாதா? நிச்சம் முடியும் ! ஐயமே இல்லை!

வேறு கிரகங்களுக்கு ஏவுகணைகளையும் விண்கலங்களையும் அனுப்புவதற்கு ... பிரபஞ்சம்பற்றியும், அதில் உள்ள நட்சத்திரங்கள், கிரகங்கள் பற்றியும், அவற்றின் வெப்பம், குளிர் நிலைமைகள்பற்றியும் கிரகங்களின் ஈர்ப்பு விசைகள் பற்றியும் பூமியிலிருந்து அவை எவ்வளவு தொலைவில் ( ஒளி ஆண்டுகளில்) இருக்கின்றன என்பதுபற்றியும் மிகத் துல்லியமாகக் கணக்கிட்டு ... அந்த அறிவியல் அறிவின் அடிப்படையில்தான் பிற கிரகங்களுக்கு விண்கலங்களையோ அல்லது மனிதர்களையோ அனுப்பிவைக்கமுடியும். அவ்வாறு மிகத் துல்லியமாகக் கணக்கிட்டு அனுப்பும்போதும் எதிர்பாராத எதிர்மறை சக்திகளால் தோல்வியும் அடைகிறோம். இருப்பினும் அடுத்தடுத்த முயற்சியில் வெற்றி கிடைக்கும் என்று நம்புகிறோம்.

இதுபோன்றதுதான் இயற்கைமொழி ஆய்வும் கணினிமொழியியலும் மொழித்தொழில்நுட்பமும்! நாம் உருவாக்கியுள்ள மின்னணுக் கருவியான கணினிக்கு .. நமது இயற்கைமொழி அறிவைக் கொடுக்கமுடியும்! அதோடு நமது மொழியில் உரையாடமுடியும்! ஐயம் இல்லை! இதற்கான முயற்சிதான் 1920 முதல் இன்றுவரை ... 100 ஆண்டுகளாக.. நடைபெற்று வருகிறது! தானியங்கு மொழிபெயர்ப்புப் பணியைக் கணினியைச் செய்யவைப்பதற்கான முயற்சிக்கு அடிப்படை .. உலக நாடுகளிடையே நடைபெற்ற போர்கள்தான். ஒரு நாடு தன் எதிரிநாட்டின் இரகசியங்களை ... அந்த நாட்டின் மொழியியில் எழுதப்பட்ட இரகசியங்களைப் புரிந்து கொள்வதற்காக முயற்சிகள் மேற்கொள்ளப்பட்டன. கோடிக்கணக்கான டாலர்கள் இந்த முயற்சிக்கு ஒதுக்கப்பட்டன. 1964 ஆம் ஆண்டில் அதுவரை நடைபெற்ற தானியங்குமொழிபெயர்ப்புப் பணிகள்பற்றி விரிவாக ஒரு குழு அமைக்கப்பட்டது. அது தனது அறிக்கையில் ( Automatic Language Processing Advisory Committee - ALPAC Report) இந்த முயற்சிகளுக்கு அளிக்கப்பட்டுள்ள நிதி உதவியைப் பார்க்கும்போது.. அதற்கேற்ற வெற்றி கிடைக்கவில்லை என்று கூறியது. மனித மொழிகளின் நுட்பங்களைப்பற்றிய அறிவு மேலும் வளரும்போதுதான், இதுபோன்ற முயற்சிகள் வெற்றிபெறும் என்று கூறியது. இதன் விளைவாக தானியங்கு மொழிபெயர்ப்புக் கணினி உருவாக்கப்பணிகள் ஏறக்குறைய 20 ஆண்டுகள் தடைபட்டுநின்றன.

பின்னர் 1970-களில் பல பல்கலைக்கழகங்களும் ஆய்வு நிறுவனங்களும் மீண்டும் இந்த முயற்சியில் தீவிரம் காட்டின. அதன் பயனாகவே இன்று கணினிமொழியியல் துறை முக்கியத்துவம் பெற்றுவருகிறது.

இருமுனைகளில் கணினிமொழியியல் இன்று வளர்ந்துவருகிறது. ஒரு முனை... இலக்கணம், மொழியியல்வழி ஆய்வு ( linguistic rule -based ). மறுமுனை புள்ளியியல் ஆய்வு (Statistical approach) , செயற்கை அறிவுத்திறன் (Artificial Intelligence), பெருந்தரவக உருவாக்கம் (Big Data Analysis), நரம்புவலைப்பின்னல் (Neural Network), கணினி தானே கற்றல் ( Machine Learning) ஆழ் அமைப்புசார் கற்றல்(Deep learning) போன்ற ஆய்வுமுறைகள். இன்றைக்குக் கணினித் தொழில்நுட்பத்தின் வளர்ச்சி வியக்கத்தக்கவகையில் இருப்பதால்.. கணினியின் சேமிப்புத்திறன் ( Hard disk etc.,), நிரல்களைச் செயல்படுத்தும் நினைவகம் ( RAM) ஆகியவை இன்று இமாலய வளர்ச்சி பெற்றுள்ளதால் மேற்குறிப்பிட்ட இரண்டாவது முனைகளில் இயற்கைமொழி ஆய்வு நன்கு வளர்ச்சி பெற்றுள்ளது.

மேற்கூறியதில் .. இலக்கணம், மொழியியல் நோக்கில் இயற்கைமொழி ஆய்வில் இரண்டு பிரச்சினைகள்.. ஒன்று, குறிப்பிட்ட மொழிபற்றிய ஆழமான ஆய்வு. மனித மூளைக்கு எழுதப்பட்டுள்ள இலக்கணங்கள் கணினிக்குப் போதாது. மூளைக்கு உள்ள உலக அறிவு, பின்புல அறிவு கணினிக்குக் கிடையாது. எனவே எந்த ஒரு மொழிக்கூறையும் கணினிக்கு அளிக்கும்போது, மிக நுட்பமாக ஆய்ந்து அளிக்கவேண்டும். பலவற்றை மூளை தானே தெரிந்துகொள்வதுபோல, கணினியால் தெரிந்துகொள்ளமுடியாது. எனவே மிக நுட்பமாகக் குறிப்பிட்ட மொழிக்கு இலக்கணம் தேவை. இன்று தமிழ்மொழிக்கு ... இன்றைய எழுத்துத்தமிழுக்குக்கூட .. இது இல்லை என்பதே உண்மை. இதுபோன்ற இலக்கணங்களை உருவாக்குவதற்கு இலக்கண அறிவு, மொழியியல் அறிவு, மிகப்பெரிய தரவுகள் ஆகியவை தேவை. கணினிக்கேற்ற அகராதிகள் தேவை. மிக மிக நுட்பமான நிலைகளில் - எழுத்தியல், சொல்லியல், தொடரியல், பொருண்மையியல், சூழல்சார் பொருண்மையியல், கருத்தாடல் ஆய்வு - என்று பல நிலைகளில் குறிப்பிட்ட மொழிகளுக்கு ஆய்வுகள் தேவை. ஆனால் இந்த ஆய்வுகள் கடினமாக இருந்தாலும், பணி வெற்றிகரமாக முடிந்துவிட்டால்... இயற்கைமொழி ஆய்வு மிகச் சிறப்பாகவே அமையும்.

இரண்டாவது பிரச்சினை.. இதற்கு அதிகமான காலம், நிதி, கூட்டு உழைப்பு .. இவையெல்லாம் தேவை. அப்படியென்றால், மேற்குறிப்பிட்ட மொழியறிவையெல்லாம் கணினிக்குக் கொடுத்தால்தான், மொழித்தொழில் நுட்பக் கருவிகள் நமக்குக் கிடைக்குமா? இல்லை. நான் முன்னர் குறிப்பிட்ட மாற்றுவழிகளைப் பயன்படுத்தி, மொழியின் நுட்பங்களைக் கணினிக்குக் கற்றுக்கொடுக்கலாம். ஏராளமான தரவுகளைக் கொடுக்கலாம். மொழியின் ஒரு விதியைக் கற்றுக்கொடுப்பதற்கு, அந்த விதியை உள்ளடக்கிய ஆயிரக்கணக்கான மொழித் தரவுகளைக் கொடுத்து, புள்ளியியல் அடிப்படையிலோ அல்லது நடைபெற்ற நிகழ்வுகளிலிருந்து புதிய நிகழ்வின் சாத்தியப்பாடுகளைக் கணினியே உணர்ந்துகொள்ள வைக்கலாம் (Probabilistic statistics) .... அதாவது கணினிக்கு நாம் கொடுக்கிற தரவுகளிலிருந்து, விதிகளை அது தானே கண்டறியப் பயிற்சி அளிக்கலாம். குறைபாடுகள் இருக்கலாம்... ஆனால் நுட்பமான மொழி அறிவு ஆய்வுக்குப் பதிலாகப் பிற அறிவியல் துறைகளை - நரம்பியல், புள்ளியியல், செயற்கை அறிவுத்திறன் ஆகிய துறைகளைப் - பயன்படுத்தியும் இயற்கைமொழி ஆய்வை மேற்கொள்ளலாம்.

ஆனால்... எவ்வளவுதான் நாம் இந்த இரண்டாவது முறையைப் பின்பற்றினாலும்... மனித மூளைக்கு உள்ள இயற்கைமொழி அறிவைக் கணினிக்குக் கொடுக்க இயலாது. மனித மூளை புதுப் புது வகைகளில் மொழித்தொடர்களை உருவாக்கக்கூடிய திறன் பெற்றது. ஆனால் அத்தனைக்கும் சில அடிப்படை மொழியியல் கொள்கைகளை அல்லது விதிகளையே பயன்படுத்தி மூளை செய்கிறது. மனித மூளையின் இந்த படைப்பாக்கக் கூறை உள்ளடக்கிய மொழித்திறனை... 100 விழுக்காடு சரியாகக் கொடுக்க இயலுமா? முடியாது என்பது மொழியியல் அறிஞர் சாம்ஸ்கியின் கருத்து. முடியும் என்பது கூகுள் நிறுவனத்தின் ஆய்வுப்பிரிவு இயக்குநர் பீட்டர் நார்விக் அவர்களின் கருத்து. பொறுத்திருந்து பார்ப்போம்.

ஆனால் ஒன்றைமட்டும் இங்கு நான் வலியுறுத்த விரும்புகிறேன்... பொதுவான (எண்களைக்கொண்ட) தரவுத்தளங்கள் வேறு... மொழித் தரவுத் தளம் வேறு. மொழித் தரவுகளை ஆய்வுசெய்வதற்கு அம்மொழிபற்றிய அறிவு தேவை. நுட்பமான அறிவு தேவை. இவ்விடத்தில் கணினிமொழியியல் பேராசிரியர் ( உலக அளவில் பல்கலைக்கழகங்களில் இத்துறையில் பாடநூலாகப் பயன்படுகிற " Speech And Language Processing" என்ற நூலை மார்ட்டின் என்பவருடன் இணைந்து எழுதியவர்) டேனியல் ஜுராப்ஸ்கி (Daniel Jurafsky ) கூறியுள்ள ஒரு கருத்து .. "What distinguishes language processing applications from other data processing systems is their use of knowledge of language. Consider the Unix wc program, which counts the total number of bytes, words, and lines in a text file. When used to count bytes and lines, wc is an ordinary data processing application. However, when it is used to count the words in a file, it requires knowledge about what it means to be a word and thus becomes a language processing system."

எனவே, தமிழ்க்கணினிமொழியியல் வளர்ச்சிக்குத் தேவை... மேற்குறிப்பிட்ட வழிமுறைகளில் எந்தவொரு வழிமுறையைப் பின்பற்றி ஆய்வு மேற்கொண்டாலும்... தமிழ்மொழியின் ஆழ அகலங்களைப் பற்றிய மொழி அறிவு தேவை என்பதில் ஐயமில்லை! இங்குத்தான் தமிழ் இலக்கணம், மொழியியல் ஆய்வுமுறை ஆகியவற்றில் மிக நுட்பமான(micro- nano - levels) , மிக ஆழமான ( deep ) ஆய்வுகள் தேவைப்படுகின்றன.

இவற்றையெல்லாம் உருவாக்குவதற்கான முயற்சிகள் மேற்கொள்ளப்படாமல்... தமிழானது இன்றைய கணினி உலக அளவில் தனக்குரிய இடத்தைப் பெறமுடியாது. மின்னணுக் கருத்துப்புலப்படுத்தக் கருவிகளில் ஒரு மொழி இடம் பெறவில்லையென்றால்... அதனுடைய பயன்படுத்தம் மிகக் குறையும். அதன் விளைவு ?

Languages for which no adequate computer processing is being,developed, risk gradually losing their place in the global Information Society, or even disappearing, together with the cultures they embody, to the detriment of one of humanity's great assets: its cultural diversity - Antonio Zampolli,

ந.தெய்வ சுந்தரம்

என்னைப்பற்றி

Language Technology

Recent Posts

வெள்ளி, 29 மே, 2020

கணினித்தமிழ் வளர்ச்சிக்குத் தமிழ் இலக்கண அறிவும் மொழியியல் அறிவும் தேவையா?

0 கருத்துகள்:

கருத்துரையிடுக

Popular Posts

Archives