சனி, 25 மே, 2024

கணினி உருபனியலும் தமிழ் மென்பொருள்களும்

 

கணினி உருபனியலும் தமிழ் மென்பொருள்களும்

இன்றைய மின்னணு உலகில் மின்னணுக் கருத்துப்புலப்பாட்டுச் சாதனங்களில் ஒரு மொழி முழுமையாக இடம்பெறவேண்டியது மிக மிகத் தேவையான ஒன்றாகும். அவ்வாறு இடம்பெறமுடியாத சூழல் ஒரு மொழிக்கு ஏற்பட்டால், அந்த மொழியின் எதிர்காலம் கேள்விக்குரியதாகிவிடும்.

கணினித்தமிழின் முதல் கட்டம்

70-களில் தமிழ்மொழியின் எழுத்துக்களைக்கூட கணினியில் காணமுடியாத ஒரு சூழல். தமிழ் எழுத்துருக்களோ ( Fonts)   தமிழ் விசைப்பலகைகளோ (Keyboard drivers)  அப்போது கிடையாது. பின்னர் சிங்கப்பூர், மலேசியா, தமிழ்நாடு, மேற்கு நாடுகளில் இருந்த தமிழ் ஆர்வலர்கள்  முன்முயற்சியால் கணினியில் தமிழ் தோன்றத் தொடங்கியது. பலவகைத் தமிழ் எழுத்துருக்கள், விசைப்பலகைகள் மக்களின் பயன்பாட்டுக்குக் கிடைக்கப்பெற்றன. ஆனால் அனைவரும் பயன்படுத்தக்கூடிய பொதுவான எழுத்துருக்களோ விசைப்பலகைகள் நிலவாத ஒரு சூழலால் கணினித்தமிழ் வளர்ச்சியில் சில சிக்கல்கள் நீடித்தன என்பது உண்மையே. இருப்பினும் மேற்கூறிய தமிழ் எழுத்துருக்கள், விசைப்பலகைகளின் வளர்ச்சியானது கணினித்தமிழை அடுத்த கட்ட வளர்ச்சிக்கு இட்டுச்சென்றது.

1999-ஆம் ஆண்டு அன்றைய தமிழ்நாட்டு முதல்வர் மறைந்த மாண்புமிகு கலைஞர் அவர்கள், மறைந்த நடுவண் அரசின் அமைச்சர் மறைந்த மாண்புமிகு முரசொலி மாறன் அவர்கள், மறைந்த பேராசிரியர் திரு. மு. ஆனந்தகிருஷ்ணன் அவர்கள் ஆகியோரின் முயற்சிகளால் தமிழ் இணைய மாநாடு நடைபெற்றது. தமிழ் எழுத்துருக்கள், விசைப்பலகைகள் தரப்படுத்தப்பட்டன. அதன் பயனாக, கணினித் தமிழானது தனது அடுத்த கட்ட வளர்ச்சிக்கு நகர்ந்தது.

தமிழுக்கான சொல்லாளர் மென்பொருள்கள் உருவாக்கப்பட்டன. சொற்பிழை திருத்திகள் அறிமுகமாயின. இதன் முதல் கட்டத்தில் கணினியியல் துறையின் தொழில்நுட்ப வளர்ச்சி தமிழுக்கு உதவியது. ஆனால் கணினியின் தொழில்நுட்பத் திறனோடு தமிழ் இலக்கணம், தமிழ் மொழியியல் துறையினரும் இணைந்து செயல்பட்டால் கணினித்தமிழின் வளர்ச்சியை அடுத்த உயர்நிலைக்குக் கொண்டுசெல்லலாம் என்பது அனைவராலும் உணரப்பட்டது. 

இந்தக் காலகட்டத்தில்தான் உலக அளவில் வளர்ந்திருந்த இயற்கைமொழி ஆய்வு ( NLP - Natural Language Processing) , கணினிமொழியியல் (Computational Linguistics)  ஆகியவற்றின் முக்கியத்துவம் தமிழ்நாட்டிலும் உணரப்பட்டது. அதன் முதற்கட்டமாக, கணினி உருபனியல் அறிவைத் தமிழுக்கும் செயல்படுத்தக் கல்வி நிறுவனங்களும் பேராசிரியர்களும் முனைந்தனர்.

கணினி மொழியியல்  ( Computational Linguistics)

இயற்கைமொழிகளின் அமைப்பையும் (Structure)  செயற்பாட்டுமுறையையும் (Functions)  கணினிநோக்கில் ஆய்வுசெய்கிற ஒரு துறையே கணினிமொழியியல் என்ற ஒரு துறை. இதன் அடிப்படை நோக்கம், இயற்கைமொழிகளைக் கணினிக்குக் கற்றுக்கொடுப்பதாகும். ஒரு இயற்கைமொழியின் அமைப்புபற்றிய அறிவைக் கணினிக்குக் கொடுக்கமுடிந்தால், மனிதர்கள் இயற்கைமொழியைப் பயன்படுத்துவதுபோன்று கணினியும் பயன்படுத்தமுடியும் என்ற கருதுகோள் முன்வைக்கப்பட்டது. மனிதர்கள் மேற்கொள்கிற மொழிச் செயல்பாடுகளைக் கணினியும் மேற்கொள்ளமுடியும் என்று கருதப்பட்டது. அதன் இறுதி நோக்கம், மனிதரைப்போன்று சிந்திக்கவும் சிந்தித்தவற்றை வெளிப்படுத்தவும் கூடிய கணினியை (Cognitive Machine)  உருவாக்குவதே ஆகும்.

மனித மூளைக்கான இலக்கணமும் கணினிக்கான இலக்கணமும்

மேற்கூறியதை நிறைவேற்ற முதலில் கணினியானது இயற்கைமொழிகளைக் கற்றுக்கொள்ளவேண்டும். இதற்கு முதற்படி, இயற்கைமொழிகளின் அமைப்புக்களையும் செயற்பாடுகளையும் கணினி நோக்கில் கண்டறிவதே ஆகும். இதுவரை, இயற்கைமொழிகளின் அமைப்பை ஆய்வுசெய்கிற ஒரு மிகப் பெரிய துறையாக மொழியியல் வளர்ந்திருக்கிறது. இயற்கைமொழிகள்பற்றிய பல்வேறு கோட்பாடுகள், ஆய்வுமுறைகளை மொழியியல் அறிஞர்கள் முன்வைத்துள்ளனர். குறிப்பாக, நோம் சாம்ஸ்கியின் பங்களிப்பு மொழியியலை ஒரு மிக உயர்ந்த கட்டத்திற்கு இட்டுச் சென்றுள்ளது என்பது அனைவரும் அறிந்த ஒன்றே.

ஆனால் மேற்கூறிய மொழியியல் ஆய்வுகள் எல்லாம் மனிதர்களை - மனித மூளையை (Human Brain)  - அடிப்படையாகக் கொண்டவையே ஆகும். மனித மூளையின் மொழித்திறன்பற்றியதே ஆகும்; மனித மூளை எவ்வாறு ஒரு மொழியைக் கற்றுக்கொள்கிறது, கற்றுக்கொண்ட அறிவை எவ்வாறு தேக்கிவைக்கிறது, எவ்வாறு பயன்படுத்துகிறது என்பவைபற்றியதே ஆகும். ஆனால் மின்னணுச் சாதனமான கணினியின் மின்னணு மூளையானது ( Electronic Chip Brain) சிந்தனை, மொழி இரண்டிலும் மனிதமூளைக்கு இணையாக அமையமுடியுமா என்பது ஆய்வாளர்களின் முன்னால் நிற்கிற ஒரு வினாவாகும். அதனைத் தொடர்ந்து,  பொது மொழியியலில் (General Linguistics) இருந்து - அதை அடிப்படையாகக்கொண்டு - கணினிமொழியியல் (Computational Linguistics) என்ற ஒரு புதுத் துறையின் வளர்ச்சி இன்றியமையாதது என்ற கருத்து ஆய்வாளர்கள் இடையே உணரப்பட்டது. அதன் பயனே இன்று வளர்ந்துநிற்கிற கணினிமொழியியலாகும்.

 மொழி ஆய்வின் படிநிலைகள்

மொழியியலில் மொழிபற்றிய ஆய்வானது பல படிநிலைகளில் மேற்கொள்ளப்படுகிறது. ஒலியனியல் ( Phonology) , உருபனியல் (Morphology), தொடரியல் (Syntax) , பொருண்மையியல் (Semantics) , சூழல்சார் பொருண்மையியல் (Pragmatics) என்று பல நிலைகள் இருக்கின்றன. கணினியின் பேசும் திறனுக்கு அல்லது வாசிக்கும் திறனுக்கு ஒலியனியல் பயன்படும். மொழித்தொடர்களின் அல்லது உரைகளின் பொருண்மையை உணரவும் பொருள்பொதிந்த மொழித்தொடர்களை உருவாக்கவும் உருபனியல், தொடரியல், பொருண்மையியல், சூழல்சார் பொருண்மையியல் பிரிவுகள் பயன்படும்.

 உருபனியல் ஆய்வு ( Morphological analysis)

னிப் பேச்சொலிகள் (Phones / Speech Sounds)  அல்லது எழுத்துக்களையும் (Scripts / Alphabets) பொருண்மை பொதிந்த சொற்றொடர்களையும் (Sentences)   இணைக்கும் பாலமே சொற்கள்பற்றிய ஆய்வு - உருபனியல் ஆய்வு (Morphology)  - ஆகும். இந்த ஆய்வானது கணினி நோக்கில் அமைவதே கணினி உருபனியல் (Computational Morphology)  ஆகும். ஒரு மொழியில் கணினி உருபனியல் எந்த அளவு வெற்றிபெறுகிறதோ, அந்த அளவுக்குத்தான்  சொற்றொடர் ஆய்வு, பொருண்மை ஆய்வு ஆகியவை எல்லாம் அமையும்.

ஒரு குறிப்பிட்ட மொழியில்,

(1)  அகராதி அல்லது அடிச்சொற்களின் வகைப்பாடு  ( Parts of Speech - POS) - பெயர், வினை, பெயரடை, வினையடை போன்றவை -   எவ்வாறு இருக்கிறது?

(2) அடிச்சொற்கள் (Lexicons)  எவ்வாறு இலக்கணக் கூறுகளை ( Grammatical features) -  பன்மை விகுதி, வேற்றுமை விகுதிகள், கால விகுதிகள் போன்றவற்றை -  ஏற்றுக்கொள்கின்றன?

(3) இலக்கண விகுதிகளில் நிலவும் வேறுபாடுகள் என்ன ( பெயரோடு சேரும் விகுதிகள், வினையோடு சேரும் விகுதிகள் போன்றவை) ?

(4) அடிச்சொற்களோடு இலக்கண விகுதிகள் இணையும்போது என்ன மாற்றங்கள் சொற்களில் ஏற்படுகின்றன? ( 'பையன்' என்ற சொல்லோடு 'ஐ' வேற்றுமை விகுதி நேரடியாக இணைந்து 'பையனை' என்று வருகிறது; ஆனால் 'மரம்' என்ற சொல்லோடு 'ஐ' வேற்றுமைவிகுதி இணையும்போது 'மரத்தை' என்று இடையில் 'அத்து' என்ற சாரியை சேர்ந்து உருவாகிறது) .

(5) இரண்டு சொற்கள் அடுத்தடுத்து வரும்போது அவற்றின் எழுத்துக்களில் மாற்றங்கள் ஏற்படுவது  உண்டா ? ( 'அவனை' 'பார்த்தேன்' என்ற இரண்டும் அடுத்தடுத்து வரும்போது 'அவனைப் பார்த்தேன்' என்று இடையில் 'ப்' என்ற எழுத்து 'அவனை' என்பதோடு இணைந்து நிற்கிறது).

மேற்கூறியவைபற்றிய அறிவைத் தருகிற துறையான உருபனியல் அறிவைக் கணினிக்கு ஏற்றவகையில் எவ்வாறு அமைத்துக்கொடுப்பது என்பதுபற்றிய ஒரு துறையே  கணினி உருபனியல் ஆகும்.   

ஒரு குறிப்பிட்ட மொழியின் மேற்கூறிய சொல்பற்றிய அறிவு கணினிக்கு அளிக்கப்படும்போதுதான், அதற்கு அடுத்த கட்ட உயர்நிலை ஆய்வான கணினித்தொடரியலுக்குச் (Computational Syntax) செல்லமுடியும். ஆய்வு நோக்கில் இது ஒருபுறம்.

பயன்பாட்டு நோக்கில் பார்த்தால், கணினியானது குறிப்பிட்ட மொழிச் சொற்களின் எழுத்துப்பிழைகள், ஒற்றுப்பிழைகள், இலக்கணப் பிழைகள் போன்றவற்றைக் கண்டறிந்து, பயனாளர்களுக்கு உதவவேண்டும். தானியங்கு எழுத்துப் பிழைதிருத்தி (Auto Spell Checker), சொல்லிலக்கணப் பிழைதிருத்தி (Word Grammar Checker) , சந்திப் பிழைதிருத்தி ( Auto Sandhi Checker)   இணைப்புக்குறியீடு (Hyphenation), அயல்மொழிச்சொல் - தமிழ்ச்சொல் மாற்றி (Native Word Converter) ,  அகராதிகள் (Dictionary) போன்ற பல சொற்பதிப்புக் கருவிகளை உள்ளடக்கிய சொல்லாளர் மென்பொருள்கள் ஒரு மொழிக்கு உறுதியாகத் தேவைப்படும். அப்போதுதான் அந்த மொழியில் ஒரு உரையைக் கணினியில் தட்டச்சு இடுபவர்கள் தங்கள் உரையைத் தவறு இல்லாமல் தயாரிக்கமுடியும்.

மேற்கூறிய அனைத்து மொழிக் கருவிகளுக்கும் மிக மிக அடிப்படையானது குறிப்பிட்ட மொழியின் கணினி உருபனியல் ஆய்வு ஆகும். தமிழ்மொழிக்கான கணினி உருபனியல் ஆய்வில் பல்கலைக்கழகங்களும் தனியார் ஆராய்ச்சி நிறுவனங்களும் தனித்த ஆய்வாளர்களும் தமிழகத்தில் கடந்த 25 ஆண்டுகளுக்குமேலாக ஈடுபட்டுவருகின்றனர். தமிழ் நாடு அரசின் தமிழ் இணையக் கல்விக் கழகமும் இதற்கான திட்டங்களுக்கு நிதி உதவியும் அளித்துவருகின்றது.

 தமிழ்க் கணினி உருபனியல்

தமிழ்மொழி ஒரு உட்பிணைப்பு -  ஒட்டுமொழி ( Inflectional and agglutinative language) ஆகும். தமிழ் மொழியில் ஒரு அகராதிச்சொல் அல்லது அடிச்சொல் என்பது தன்னுடன் பல  இலக்கணப்பண்புகளை இணைத்துக்கொள்ளும். இந்த இலக்கணப் பண்புகள் விகுதிகள்மூலம் வெளிப்பட்டு நிற்கும். அப்போது அதன் அடிச்சொல் வடிவம் திரிபும் அடையலாம் . எடுத்துக்காட்டாக, 'நான்' என்ற தன்மை ஒருமைச் சொல்லானது 'ஐ' என்ற இரண்டாம் வேற்றுமை உருபை ஏற்கும்போது, 'என்னை' என்று தன் வடிவத்தில் திரிந்து அமையும்.  பெயர்ச்சொற்கள் திணை, பால் (Gender)  , ஒருமை-பன்மை (Number)  , வேற்றுமை (Case)  போன்ற இலக்கணப் பண்புகளையும் வினைச்சொற்கள் காலம் (Tense) , வினைக்கூறு (Aspects), வினைநோக்கு (Modals) வினைப்பாங்கு (Voice)  போன்ற இலக்கணப் பண்புகளையும் ஏற்றுக்கொள்கின்றன. மேற்கூறிய இலக்கணப் பண்புகள் ஒரு சில மொழிகளில் தனித்த சொற்களாகவும் (Grammatical words)  ஒரு சில மொழிகளில் விகுதிகளாகவும் (Affixes)  அமைகின்றன. சில மொழிகளிலும் தனிச்சொல், விகுதி இரண்டையும் கொண்டுள்ளன.

ஒரு மொழியின் இலக்கணம் ( Grammar) என்பது இரண்டு பகுதிகளை உள்ளடக்கியது: (1)   சொல்திரிபு அல்லது உட்பிணைப்பு உருபனியல் (Inflectional Morphology)  (2) தொடரியல் (Syntax). ஆங்கிலத்தைப் பொறுத்தமட்டில் பெரும்பான்மையான இலக்கணக் கூறுகள் தொடரியலில் இடம்பெறுகின்றன. சொல்திரிபு உருபனியல் ஒப்புநோக்கச் சற்று எளிமையானது. ஆனால் தமிழ்மொழியில் பெரும்பான்மையான இலக்கணக்கூறுகள் சொல்திரிபு உருபனியலில் இடம்பெறுகின்றன. தொடரியல் ஒப்புநோக்க ஆங்கிலத்தைவிடச் சற்று எளிமையானது. எனவே, தமிழ்மொழியைப்பொறுத்தமட்டில் சொல்திரிபு உருபனியல் மிகவும் முக்கியத்துவம் வாய்ந்தது.

ஆங்கிலமொழியைப் பொறுத்துவரையில் பெயர்ச்சொற்கள் ஒருமை - பன்மை இலக்கணப் பண்பை விகுதிகள்மூலமே (affixes)  வெளிக்காட்டிநிற்கின்றன ("boy - boys").  வேற்றுமை இலக்கணப் பண்புகளை வெளிப்படுத்தத் தனிச்சொற்களாக அமைகிற பின்னொட்டுக்கள் (Prepositionss) ,  விகுதிகள் இரண்டையும் பயன்படுத்துகின்றன  ( "to the School", "boy's School") . குறிப்பிட்ட சில ஆங்கிலச்சொற்கள் தங்கள் வடிவமாற்றத்தின்மூலமாகவும் வேற்றுமைப் பண்பை வெளிப்படுத்துகின்றன ( "his", "him", "their", "them")  சில இடங்களில் ஒரு இலக்கணப்பண்பை வெளிப்படுத்த ஒரே நேரத்தில் இரண்டையும் பயன்படுத்துகின்றன ( " is coming" "has been purchased").

தமிழைப்பொறுத்தமட்டில் இலக்கணச் சொற்கள் எல்லாம் விகுதிகளாகவே (Suffixes)  நீடிக்கின்றன. ''நூல்'' என்ற பெயர்ச்சொல் பன்மை இலக்கணப்பண்பை ஏற்கும்போது , ''கள்'' என்ற விகுதியைத் தன்னுடன் இணைத்து ''நூல்கள்'' என்று அமைகிறது. அதுபோன்று செயப்படுபொருள் என்ற வேற்றுமை உறவுப் பண்பைக் காட்ட ''ஐ'' என்ற விகுதியை இணைத்துக்கொண்டு ''நூலை'' என்ற அமைகிறது.

''படி'' என்ற வினைச்சொல் இறந்தகாலத்தைக் காட்ட ''த்த்'' என்ற விகுதியையும் வினைச் செய்கிறவன் படர்க்கை ஒருமை ஆண்பால் என்பதைக் காட்ட ''ஆன்'' என்ற விகுதியையும் இணைத்துக்கொண்டு  இணைத்துக்கொண்டு ''படித்தான்'' என்று அமைகிறது.

சில இலக்கணப் பண்புகளைக் காட்டும் வடிவங்கள் தனிச்சொற்கள் போன்று இருந்தாலும், அவை தனித்து வராமல் தங்களது அடிச்சொல் அல்லது அகராதிச்சொல்லுடன் இணைந்துதான் அமைகின்றன. ''அவனைப்பற்றி'' ''அவனுடன்'' ''படித்துக்கொண்டு'' போன்றவற்றில் ''பற்றி'' ''குறித்து'' ''கொண்டு'' ஆகியவை வேறு இடங்களில் தனித்து பொருண்மைச் சொற்களாக வந்தாலும் (''அவன் கைகளைப் பற்றி அறிவுரை கூறினேன்'' '' அதைக் குறித்துவிட்டேன்'' ''அதைக் கொண்டுவா'' )  , இலக்கணப் பொருள்களைக் குறித்து நிற்கும்போது தனித்து வராது.

இதுபோன்று தமிழில் ஒரு அடிச்சொல் - பெயரோ, வினையோ - தங்களுக்குரிய இலக்கணப் பண்புகளை ஏற்கும்போது, விகுதிகளை இணைத்துக்கொள்கிறது. மேலும் ஒன்றுக்குமேற்பட்ட இலக்கணப் பண்புகளை ஏற்கும்போது, அவற்றின் விகுதி வடிவங்களை ஒன்றன்பின் ஒன்றாக - மாலையில் பாசிமணிகளைக் கோர்ப்பதுபோல - இணைத்துக்கொள்கிறது. எனவேதான் தமிழை ஒரு ஒட்டுமொழி என்று அழைக்கிறார்கள்.

தமிழ்ச்சொற்களின் அமைப்பு

தமிழில் ஒரு அடிச்சொல்லில் பத்து, பதினொன்று விகுதிகளைக்கூட இணைக்கலாம். கீழ்க்கண்ட ஒரு வினைமுற்றுச் சொல்லில் '' எழுது'' என்ற வினைச்சொல்லுடன் 16  விகுதிகள் இணைந்துள்ளன. ''எழுதிக்காட்டவைக்கப்பார்த்தவர்களைப்பற்றிமட்டும்தானாடா''

''எழுது - இ - காட்டு - அ- வை(க்க்) - அ - பார் - த்த் - அ(வ) - அர் - கள்- ஐ(ப்) - பற்றி - மட்டும் - தான் -ஆ - டா ''.

மேற்கூறிய வகையில் ஏராளமான விகுதிகளை இணைத்துப் பொதுவாக யாரும் எழுதமாட்டார்கள் என்றாலும், அதற்கு வாய்ப்பு உண்டு என்பதைக் காட்டவே இந்த எடுத்துக்காட்டு. ஆங்கிலத்தில் பெரும்பான்மையாக ஒரு இலக்கண விகுதியும், சில இடங்களில் இரண்டு அல்லது மூன்று இலக்கண விகுதிகளும் இணையும்.

"boys" (boys- s) ;  "boys'(s)" (boy-s-s) ; "beautifully" (beauty - ful - ly) .

ஆங்கிலத்தில் ஒரு வினைச்சொல்லுக்கு ஆறு திரிபு வடிவங்கள் இருக்கலாம் ( go, goes, going, went, gone, to go).  ஆனால் தமிழில் ஒரு வினைச்சொல் பல இலட்ச வடிவங்களை எடுக்கலாம் ('படித்தான், படித்தேன், படித்துக்கொண்டு, படிக்க, படிக்காமல் . . . ) ; ஒரு பெயர்ச்சொல்லும் இதுபோன்று பல இலட்சம் வடிவங்களை எடுக்கலாம் ( 'பையன், பையனை, பையன்கள், பையன்களை, பையன்பற்றி, பையன்களைப்பற்றி . . . ) .

உருபன் பகுப்பாய்வு (Morphological Parsing)

எனவே, தமிழ்ச்சொல் ஆய்வில் திரிபு ஏற்ற சொல்லைப் பகுதி , விகுதி என்று பிரிப்பதே முதலாவது முக்கியப் பணியாக அமைகிறது. இதற்கு அடிப்படையில் தேவைப்படுபவை:

  (1) தமிழ் அகராதிச் சொற்களைப் பெயர், வினை, பெயரடை, வினையடை என்று பிரித்து அமைக்கப்படுகிற ஒரு முறையான மின்னகராதித் தரவகம் ஆகும்  (Electronic Lexical Database) . ஒரு சொல்லின் இலக்கணவகைப்பாடு சரியாகக் குறிக்கப்படவில்லையென்றால், பிரிக்க முடியாமல் போகலாம்; அல்லது தவறான பிரிப்பாக அமையலாம்.

இதுபோன்று தமிழின் இலக்கண விகுதிகளையும் அவற்றின் இலக்கணப் பண்புகளோடு தொகுக்கவேண்டும். பெயரோடு இணைகிற விகுதியா, வினையோடு இணைகிற விகுதியா என்பதையும் தரவேண்டும்.

    (2) தமிழ் சொல் அமைப்பில் அடுத்த ஒரு முக்கியமான பண்பு, ஒரு அகராதிச்சொல்லோடு ஒன்றுக்கு மேற்பட்ட இலக்கணவிகுதிகள் இணையும்போது, அவை எந்த வரிசையில் இணைக்கப்படவேண்டும் என்பது ஆகும். ''பையன்'' என்ற பெயர்ச்சொல் பன்மை, வேற்றுமை என்ற இரு இலக்கணவிகுதிகளை ஏற்கும்போது, அவை ஒரு குறிப்பிட்ட வரிசையில்தான் அமையவேண்டும். ''பையன் - கள் - ஐ'' என்று இணைந்து ''பையன்களை'' என்ற திரிபுச்சொல்லாக அமையவேண்டும்; மாறாக, ''பையன் - ஐ - கள்'' என்று இணைந்து, ''பையனைகள்'' என்று அமையக்கூடாது. இதை மொழியியலில் ''உருபு அமையும் வரிசைமுறை ( morpho tactics) என்று அழைப்பார்கள். எவ்விதத் தவறு இல்லாமல் இதற்கான விதிகள் கண்டறியப்படவேண்டும்.

 (3) அடுத்து மூன்றாவதாக, ஒரு அகராதிச்சொல்லோடு மற்றொரு அகராதிச்சொல் இணையும்போதோ அல்லது அடிச்சொல்லோடு விகுதிகள் இணையும்போதோ அல்லது விகுதியோடு அதற்கு அடுத்துவருகிற விகுதி இணையும்போதோ ஒலியன் மாற்றம் - சந்தி அல்லது புணர்ச்சி  ( Morphophonemics) ஏற்படலாம். ''மரம்'' என்பதுடன் பன்மை விகுதி ''கள்'' என்பதை இணைக்கும்போது, ''மரங்கள்'' என்று அமையும். அதாவது, ''மரம்'' என்பதில் உள்ள இறுதி ''ம்'' என்ற ஒலியன் ''ங்'' என்ற ஒலியனாக மாறி அமையும். அதுபோன்று இச்சொல்லோடு ''ஐ'' என்ற வேற்றுமை விகுதி இணையும்போது, ''மரம் + அத்து + ஐ'' என்று இடையில் ''அத்து'' என்ற சாரியை அமைந்து, ''மரத்தை'' என்று அமையும். ''கிளை'' என்ற மற்றொரு சொல் இணையும்போது ''மரக்கிளை'' என்று ''ம்'' என்ற இறுதி ஒலியன் மறைந்து, 'க்' என்ற எழுத்து அமையும்.  

 மேற்கூறிய அடிப்படையில் தமிழ் உருபனியல் ஆய்வுக்கு மூன்று தயாரிப்புக்கள் தேவைப்படுகின்றன. ஒன்று, முறையான அகராதி; இரண்டு, இலக்கண விகுதிகளும் அவற்றின் வரிசைமுறையும் ; மூன்று, சந்தி அல்லது புணர்ச்சி விதிகள்.

 மேற்கூறிய மூன்றும் முறையாகவும் சரியாகவும் உருவாக்கப்பட்டிருந்தால்தான், எந்தவொரு தமிழ்ச்சொல்லையும் பிரிக்கவும் முடியும்; ஒரு அகராதிச்சொல்லின் பல திரிபு வடிவங்களை உருவாக்கவும் முடியும். சொற்பிழை திருத்தி, சந்திப்பிழை திருத்தி போன்ற மென்பொருள் கருவிகளை உருவாக்க இதுவே அடிப்படை.

 மேற்கூறியவற்றை ஒரு மனிதர் கற்றுக்கொண்டு செயல்படுத்துவது வேறு. இது உருபனியல் என்ற பிரிவில் அடங்கும். ஆனால் ஒரு கணினியானது இதைக் கற்றுக்கொள்வது என்பது வேறு. இதுதான் கணினி உருபனியல் ஆகும்.

கணினிக்காக உருவாக்கப்படுகிற உருபனியலில் அகராதிச் சொற்களை எவ்வாறு கணினிக்கான ஒரு தரவாக மாற்றியமைப்பது ( Computational Lexical Database)  என்பதுபற்றிய அறிவு தேவை. ஒரு சொல், அதன் இலக்கண வகைப்பாடு ( பெயர், வினை . .. ) , உள்வகைப்பாடு ( உயர்திணைப் பெயர், அஃறிணைப்பெயர் , செயப்படுபொருள் குன்றா வினை, குன்றிய வினை . . . ), வினைகளின் கால விகுதி அல்லது வினைத்திரிபு அறிவு போன்றவற்றையெல்லாம் கணினிக்கேற்ற ஒன்றாக எவ்வாறு அமைப்பது என்பது இங்கு முக்கியம்.

அடுத்து, ஒரு அடிச்சொல்லோடு விகுதிகள் இணையும்போது எந்த வரிசையில் அவை இணையவேண்டும் என்ற வருகைமுறைகளைப் பற்றிய அறிவைக் கணினிக்கு எவ்வாறு அளிப்பது என்பது பற்றியதாகும். இது மிக மிக முக்கியமானது.

இறுதியாக, சொல்லும் சொல்லும் இணையும்போதோ, சொல்லும் விகுதியும் இணையும்போதோ, விகுதியும் விகுதியும் இணையும்போதோ நடைபெறும் உருபொலியன் மாற்றங்கள் பற்றிய விதிகளைக் கணினிக்கு அளிப்பது ஆகும்.

கணினிக்கு இயற்கைமொழி ஆய்வை அறிமுகப்படுத்திய நாளிலிருந்தே உலகெங்கும் கணினிமொழியியல் துறையினர் ( கணினியியல் , மொழியியல் அறிஞர்கள்) மேற்கூறிய  கணினி உருபனியலுக்குப் பல்வேறுபட்ட ஆய்வு முறைகளையும் உருபன் அறிவை வெளிப்படுத்தும் மாதிரிகளையும் (Computational Morphological Formalism) முன்வைத்துவருகின்றனர். எல்லா மொழிகளுக்கும் பொதுவான மாதிரிகளும் உருவாக்கப்பட்டுள்ளன.

 உருபன் பகுப்பாய்வில் சந்திக்கும் சில சிக்கல்கள்

தமிழ்ச் சொற்களைப் பகுப்பாய்வுக்கு உட்படுத்தும்போது, சில சிக்கல்களை எதிர்நோக்கவேண்டியிருக்கும்.

 (1) 'வந்தது' என்ற சொல்லைப் பகுக்கும்போது, கணினியானது '' வா - ந்த் - அது'' என்று மூன்றாகப் பிரித்துவிடும். இதில் 'வா' என்பது வினையடி; '-ந்த்-' என்பது இறந்தகால விகுதி; 'அது' என்பதற்கு மூன்று விளக்கங்களைக் கணினி தரும். ஒன்று, 'அது' என்பது திணை - எண்- பால் விகுதி (அஃறிணை படர்க்கை ஒன்றன்பால் ) ; இரண்டாவது, 'அது' என்பது வினையாலணையும் பெயர் விகுதி (Participial Noun suffix); மூன்றாவது, 'அது' என்பது தொழிற்பெயர் விகுதி (Verbal noun / Gerundial suffix). இந்த இடத்தில் 'அது' என்பதின் இலக்கண வகைப்பாட்டைப் பொறுத்துத்தான் 'வந்தது' என்பது வினைமுற்றா( Finite Verb) , வினையாலணையும் பெயரா (Participial Noun) , தொழிற்பெயரா (Verbal Noun or Gerundial Noun)  என்பதை முடிவெடுக்கமுடியும். இந்த இலக்கண மயக்கத்தைத் தீர்ப்பதற்கு 'வந்தது' என்பது பயின்றுவருகிற முழுச் சொற்றொடரும்  தேவைப்படும். அந்தச் சொற்றொடரில்  'வந்தது' என்ற சொல்லுக்குமுன் எந்தச் சொல் வருகிறது அல்லது பின்னால் எந்தச் சொல் வருகிறது என்பதைப் பொறுத்துத்தான் முடிவு எடுக்கமுடியும்.

 (2) 'வேலை' என்ற சொல்லைப் பகுக்கும்போதும் சிக்கலை எதிர்கொள்ளவேண்டியிருக்கும்.

தனித்துப் பார்த்தால் , 'வேலை' என்ற சொல்லுக்கு இரண்டு முடிவுகள் பகுப்பாய்வில் கிடைக்கும்.  ஒன்று, 'வேலை'  (''job/ work")  என்ற பெயரடிச்சொல்; மற்றொன்று, 'வேல் + ஐ' ( "spear -Obj." ) என்ற இரண்டாம் வேற்றுமை ஏற்ற ஒரு பெயர்ச்சொல். இங்கும் நமக்கு முன், பின் சொற்கள் தேவைப்படுகிறது. தமிழ்ப் புணர்ச்சியும் உதவுகிறது.

'' குமார் கோயிலில் வேலை பார்த்தான்'' - " Kumar worked in the temple"

''குமார் கோயிலில் வேலைப் பார்த்தான்'' - "Kumar saw the spear in the temple"

இரண்டாவதில் ''வேலை'' என்ற சொல்லானது 'வேல்' + 'ஐ' என்ற இரண்டாம் வேற்றுமை ஏற்ற சொல்லாக இருப்பதாலும் அடுத்து வல்லினத்தில் தொடங்குகிற 'பார்த்தான்' என்ற வினைமுற்று வருவதாலும் அங்கு ஒற்று மிகுகிறது. முதல் தொடரில் 'வேலை' என்பது இரண்டாம் வேற்றுமை ஏற்ற சொல் இல்லை என்பதால் ஒற்று மிகவில்லை. இதை வைத்துத்தான் முடிவு எடுக்கமுடியும்.

 (3) ''விஷமருந்து'' என்ற சொல்லுக்கும் இரண்டு பகுப்பாய்வு விடைகள் கிடைக்கும். ஒன்று, 'விஷம் அருந்து'' என்ற வினைச்சொல்; மற்றொன்று, 'விஷம் மருந்து'. இங்கு ஒரு 'ம்' மறைவதால் ஏற்படுகிற இலக்கண மயக்கம்.

 மனித மூளை மேற்கூறிய பொருண்மை மயக்கம்(Semantic ambiguity)  , இலக்கண மயக்கம் (Grammatical ambiguity)  ஆகியவற்றைத் தனது உலகறிவை (Pragmatic knowledge)  வைத்துக்கொண்டு, எந்தச் சிக்கலும் இல்லாமல்  புரிந்துகொள்ளும். ஆனால் கணினிக்கு நாம்தான்  ஒரு சில உதவிகளை அளிக்கவேண்டியிருக்கும்.

 மனித மூளையும் கணினி மூளையும்

மனித மூளையானது தனக்கே உரிய உலகறிவின் துணைகொண்டு மேற்கூறப்பட்ட பொருண்மை, இலக்கண மயக்கங்களை எளிதில் தீர்த்துக்கொள்கிறது. ஆனால் கணினிக்கு மிக நுட்பமாகச் சொல் அமைப்பு விதிகளை அளிக்கவேண்டும். எனவே, மனிதர்களுக்குக் கற்றுக்கொடுக்கப்படுகிற தமிழ்ச் சொல் இலக்கணத்தைவிட, மிக நுட்பமாகக் கணினிக்குத் தமிழ்ச் சொல்லமைப்பு விதிகள் கற்றுக்கொடுக்கப்படவேண்டும். அவ்வாறு கற்றுக்கொடுத்தால் கணினியால் எந்தவொரு தமிழ்ச் சொல்லையும் பகுத்து ஆராயமுடியும். எனவே, நாம் வகுப்புக்களில் கற்றுக்கொள்கிற சொல் இலக்கணத்தைவிட, மிகவும் ஆழமாகவும் நுட்பமாகவும் (micro-level)   அமைகிற தமிழ்ச்சொல் இலக்கணத்தைக் கண்டறிந்து கணினிக்கு அளிக்கவேண்டும். தமிழ்ச் சொல் இலக்கணத்தின் அமைப்புக்களுக்குத் தெளிவான விதிகள் இருப்பதால், முறையாக அவற்றைக் கணினிநோக்கில் ஆராய்ந்து தமிழ்க் கணினி உருபனியலில் முன்வைக்கப்பட்டால் தமிழ் உருபன் பகுப்பாய்வியால் நன்றாகச் செயல்படமுடியும்.

 மேற்கூறிய உண்மையின் அடிப்படையில் தமிழகத்தில் அண்ணா பல்கலைக்கழகம், எம் ஐ டி அண்ணா பல்கலைக்கழகம், கோவை அமிர்தா பல்கலைக்கழகம், மைசூர் இந்திய மொழிகள் நடுவண் நிறுவனம், ஹைதராபாத்தில் உள்ள IIIT, சென்னையில் உள்ள இந்தியத் தொழில்நுட்ப நிறுவனம் , தமிழ் இணையக் கல்விக்கழகம் போன்றவை தமிழ்க் கணினி உருபனியல் ஆய்வுகளில் ஈடுபட்டு, தமிழ் உருபன் பகுப்பாய்விகளை உருவாக்கிவருகின்றன. தனி நபர் அளவிலும் பேராசிரியர் கிருஷ்ணமூர்த்தி,  ந. தெய்வ சுந்தரம் , ச. இராஜேந்திரன், முனைவர் தனலட்சுமி கிரி, முனைவர் கி. உமாதேவி, திருமதி அபிராமிமுத்து, திரு. சு. சரவணன், முனைவர் அ. கோபால், பேராசிரியர் பரமேஸ்வரி, முனைவர் சண்முகம், முனைவர் பிரபாகரன், ம. கணேசன், மதன் கார்க்கி ( கார்க்கி ஆராய்ச்சி நிறுவனம்) போன்றோர் இப்பணியில் ஈடுபட்டுவருகின்றனர். இதன் பயனாக, தற்போது தமிழ்ச்சொற்பிழைதிருத்தி, சந்திப்பிழை திருத்தி போன்ற தமிழ் மென்பொருள்களைப் பேராசிரியர் கிருஷ்ணமூர்த்தி ('பொன்மொழி'), நீச்சல்காரன் என்ற இராஜாராமன் (''வாணி எழுத்துப்பிழைதிருத்தி'', ''நாவி சந்திப்பிழைதிருத்தி'') , என் டி எஸ் லிங்க்சாஃப்ட் சொலூஷன்ஸ் நிறுவனம் ('மென்தமிழ்') உருவாக்கி வெளியிட்டுள்ளனர்.

 தமிழ் உருபன் பகுப்பாய்வின் வளர்ச்சியானது சொற்பிழைதிருத்தி, சந்திப்பிழை திருத்தி போன்ற மென்பொருள் கருவிகளுக்கு மட்டுமல்லாமல், இணைப்புக் குறியீடு ( Hyphenation), தானியங்கு சொற்பரிந்துரை (Auto suggestion of words) போன்ற சொல்லாளர் மென்பொருளுக்கான கருவிகளை உருவாக்கவும் பயன்படும். மேலும் இந்த உருபன்பகுப்பாய்வின் திறனைப் பொறுத்து, சொற்பிழைதிருத்தியின் வேகமும் அதிகரிக்கும்.

 இவற்றிற்கெல்லாம் அடிப்படையானது, மொழியியல் நோக்கில் மேற்கொள்ளப்படும் தமிழ்ச் சொல்லாய்வு , தமிழ்ச் சொல்லிலக்கணமே ஆகும். தமிழ்மொழி ஆய்வாளர்கள், மொழியியல் ஆய்வாளர்கள், கணினியியல் ஆய்வாளர்கள் ஆகியோரின் கூட்டுமுயற்சியால்  எந்த அளவுக்கு இந்தப் பணி வெற்றியடைகிறதோ, அந்த அளவுக்குத் தமிழ்நாட்டு மக்களுக்குத் தேவையான தமிழ் மென்பொருள்களை உருவாக்கி அளிக்கமுடியும்.

(இக்கட்டுரை தமிழ் நாடு அரசின் 'பன்னாட்டுக் கணித்தமிழ்24 மாநாட்டையொட்டி, வெளியிடப்பட்ட ''கணித்தொகை - தமிழிணையம்99 முதல் கணித்தமிழ்24 வரை'' என்ற சிறப்பு மலருக்காக அளிக்கப்பட்டு, வெளியாகியது.)  

0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India