கணினி உருபனியலும் தமிழ் மென்பொருள்களும்
இன்றைய
மின்னணு உலகில் மின்னணுக் கருத்துப்புலப்பாட்டுச் சாதனங்களில் ஒரு மொழி முழுமையாக
இடம்பெறவேண்டியது மிக மிகத் தேவையான ஒன்றாகும். அவ்வாறு இடம்பெறமுடியாத சூழல் ஒரு
மொழிக்கு ஏற்பட்டால், அந்த மொழியின் எதிர்காலம் கேள்விக்குரியதாகிவிடும்.
கணினித்தமிழின் முதல் கட்டம்
70-களில்
தமிழ்மொழியின் எழுத்துக்களைக்கூட கணினியில் காணமுடியாத ஒரு சூழல். தமிழ்
எழுத்துருக்களோ ( Fonts) தமிழ்
விசைப்பலகைகளோ (Keyboard drivers) அப்போது
கிடையாது. பின்னர் சிங்கப்பூர், மலேசியா, தமிழ்நாடு, மேற்கு நாடுகளில் இருந்த
தமிழ் ஆர்வலர்கள் முன்முயற்சியால்
கணினியில் தமிழ் தோன்றத் தொடங்கியது. பலவகைத் தமிழ்
எழுத்துருக்கள், விசைப்பலகைகள் மக்களின் பயன்பாட்டுக்குக் கிடைக்கப்பெற்றன. ஆனால்
அனைவரும் பயன்படுத்தக்கூடிய பொதுவான எழுத்துருக்களோ விசைப்பலகைகள் நிலவாத ஒரு
சூழலால் கணினித்தமிழ் வளர்ச்சியில் சில சிக்கல்கள் நீடித்தன என்பது உண்மையே.
இருப்பினும் மேற்கூறிய தமிழ் எழுத்துருக்கள், விசைப்பலகைகளின் வளர்ச்சியானது
கணினித்தமிழை அடுத்த கட்ட வளர்ச்சிக்கு இட்டுச்சென்றது.
1999-ஆம் ஆண்டு அன்றைய தமிழ்நாட்டு முதல்வர் மறைந்த மாண்புமிகு கலைஞர் அவர்கள், மறைந்த நடுவண் அரசின் அமைச்சர் மறைந்த மாண்புமிகு முரசொலி மாறன் அவர்கள், மறைந்த பேராசிரியர் திரு. மு. ஆனந்தகிருஷ்ணன் அவர்கள் ஆகியோரின் முயற்சிகளால் தமிழ் இணைய மாநாடு நடைபெற்றது. தமிழ் எழுத்துருக்கள், விசைப்பலகைகள் தரப்படுத்தப்பட்டன. அதன் பயனாக, கணினித் தமிழானது தனது அடுத்த கட்ட வளர்ச்சிக்கு நகர்ந்தது.
தமிழுக்கான சொல்லாளர் மென்பொருள்கள் உருவாக்கப்பட்டன. சொற்பிழை திருத்திகள் அறிமுகமாயின. இதன் முதல் கட்டத்தில் கணினியியல் துறையின் தொழில்நுட்ப வளர்ச்சி தமிழுக்கு உதவியது. ஆனால் கணினியின் தொழில்நுட்பத் திறனோடு தமிழ் இலக்கணம், தமிழ் மொழியியல் துறையினரும் இணைந்து செயல்பட்டால் கணினித்தமிழின் வளர்ச்சியை அடுத்த உயர்நிலைக்குக் கொண்டுசெல்லலாம் என்பது அனைவராலும் உணரப்பட்டது.
இந்தக் காலகட்டத்தில்தான் உலக அளவில் வளர்ந்திருந்த இயற்கைமொழி ஆய்வு ( NLP - Natural Language Processing) , கணினிமொழியியல் (Computational Linguistics) ஆகியவற்றின் முக்கியத்துவம் தமிழ்நாட்டிலும் உணரப்பட்டது. அதன் முதற்கட்டமாக, கணினி உருபனியல் அறிவைத் தமிழுக்கும் செயல்படுத்தக் கல்வி நிறுவனங்களும் பேராசிரியர்களும் முனைந்தனர்.
கணினி மொழியியல் ( Computational Linguistics)
இயற்கைமொழிகளின்
அமைப்பையும் (Structure)
செயற்பாட்டுமுறையையும் (Functions)
கணினிநோக்கில் ஆய்வுசெய்கிற ஒரு துறையே கணினிமொழியியல் என்ற ஒரு துறை. இதன்
அடிப்படை நோக்கம், இயற்கைமொழிகளைக் கணினிக்குக் கற்றுக்கொடுப்பதாகும். ஒரு
இயற்கைமொழியின் அமைப்புபற்றிய அறிவைக் கணினிக்குக் கொடுக்கமுடிந்தால், மனிதர்கள்
இயற்கைமொழியைப் பயன்படுத்துவதுபோன்று கணினியும் பயன்படுத்தமுடியும் என்ற கருதுகோள்
முன்வைக்கப்பட்டது. மனிதர்கள் மேற்கொள்கிற மொழிச் செயல்பாடுகளைக் கணினியும்
மேற்கொள்ளமுடியும் என்று கருதப்பட்டது. அதன் இறுதி நோக்கம், மனிதரைப்போன்று சிந்திக்கவும்
சிந்தித்தவற்றை வெளிப்படுத்தவும் கூடிய கணினியை (Cognitive Machine) உருவாக்குவதே ஆகும்.
மனித மூளைக்கான இலக்கணமும் கணினிக்கான இலக்கணமும்
மேற்கூறியதை
நிறைவேற்ற முதலில் கணினியானது இயற்கைமொழிகளைக் கற்றுக்கொள்ளவேண்டும். இதற்கு முதற்படி, இயற்கைமொழிகளின்
அமைப்புக்களையும் செயற்பாடுகளையும் கணினி நோக்கில் கண்டறிவதே ஆகும். இதுவரை,
இயற்கைமொழிகளின் அமைப்பை ஆய்வுசெய்கிற ஒரு மிகப் பெரிய துறையாக மொழியியல்
வளர்ந்திருக்கிறது. இயற்கைமொழிகள்பற்றிய பல்வேறு கோட்பாடுகள், ஆய்வுமுறைகளை மொழியியல் அறிஞர்கள்
முன்வைத்துள்ளனர். குறிப்பாக, நோம் சாம்ஸ்கியின் பங்களிப்பு மொழியியலை ஒரு மிக
உயர்ந்த கட்டத்திற்கு இட்டுச் சென்றுள்ளது என்பது அனைவரும் அறிந்த ஒன்றே.
ஆனால் மேற்கூறிய மொழியியல் ஆய்வுகள் எல்லாம் மனிதர்களை - மனித மூளையை (Human Brain) - அடிப்படையாகக் கொண்டவையே ஆகும். மனித மூளையின் மொழித்திறன்பற்றியதே ஆகும்; மனித மூளை எவ்வாறு ஒரு மொழியைக் கற்றுக்கொள்கிறது, கற்றுக்கொண்ட அறிவை எவ்வாறு தேக்கிவைக்கிறது, எவ்வாறு பயன்படுத்துகிறது என்பவைபற்றியதே ஆகும். ஆனால் மின்னணுச் சாதனமான கணினியின் மின்னணு மூளையானது ( Electronic Chip Brain) சிந்தனை, மொழி இரண்டிலும் மனிதமூளைக்கு இணையாக அமையமுடியுமா என்பது ஆய்வாளர்களின் முன்னால் நிற்கிற ஒரு வினாவாகும். அதனைத் தொடர்ந்து, பொது மொழியியலில் (General Linguistics) இருந்து - அதை அடிப்படையாகக்கொண்டு - கணினிமொழியியல் (Computational Linguistics) என்ற ஒரு புதுத் துறையின் வளர்ச்சி இன்றியமையாதது என்ற கருத்து ஆய்வாளர்கள் இடையே உணரப்பட்டது. அதன் பயனே இன்று வளர்ந்துநிற்கிற கணினிமொழியியலாகும்.
மொழியியலில்
மொழிபற்றிய ஆய்வானது பல படிநிலைகளில் மேற்கொள்ளப்படுகிறது. ஒலியனியல் ( Phonology)
, உருபனியல் (Morphology), தொடரியல் (Syntax) , பொருண்மையியல் (Semantics) ,
சூழல்சார் பொருண்மையியல் (Pragmatics) என்று பல நிலைகள் இருக்கின்றன. கணினியின்
பேசும் திறனுக்கு அல்லது வாசிக்கும் திறனுக்கு ஒலியனியல் பயன்படும்.
மொழித்தொடர்களின் அல்லது உரைகளின் பொருண்மையை உணரவும் பொருள்பொதிந்த
மொழித்தொடர்களை உருவாக்கவும் உருபனியல், தொடரியல், பொருண்மையியல், சூழல்சார்
பொருண்மையியல் பிரிவுகள் பயன்படும்.
தனிப் பேச்சொலிகள் (Phones / Speech Sounds) அல்லது எழுத்துக்களையும் (Scripts / Alphabets) பொருண்மை
பொதிந்த சொற்றொடர்களையும்
(Sentences) இணைக்கும் பாலமே சொற்கள்பற்றிய ஆய்வு -
உருபனியல் ஆய்வு (Morphology) - ஆகும். இந்த ஆய்வானது கணினி நோக்கில் அமைவதே
கணினி உருபனியல் (Computational
Morphology) ஆகும். ஒரு மொழியில் கணினி உருபனியல் எந்த அளவு
வெற்றிபெறுகிறதோ, அந்த அளவுக்குத்தான் சொற்றொடர் ஆய்வு,
பொருண்மை ஆய்வு ஆகியவை எல்லாம் அமையும்.
ஒரு
குறிப்பிட்ட மொழியில்,
(1) அகராதி அல்லது அடிச்சொற்களின்
வகைப்பாடு ( Parts of Speech - POS) -
பெயர், வினை, பெயரடை, வினையடை போன்றவை -
எவ்வாறு இருக்கிறது?
(2)
அடிச்சொற்கள் (Lexicons) எவ்வாறு இலக்கணக்
கூறுகளை ( Grammatical features) - பன்மை
விகுதி, வேற்றுமை விகுதிகள், கால விகுதிகள் போன்றவற்றை - ஏற்றுக்கொள்கின்றன?
(3)
இலக்கண விகுதிகளில் நிலவும் வேறுபாடுகள் என்ன ( பெயரோடு சேரும் விகுதிகள்,
வினையோடு சேரும் விகுதிகள் போன்றவை) ?
(4)
அடிச்சொற்களோடு இலக்கண விகுதிகள் இணையும்போது என்ன மாற்றங்கள் சொற்களில்
ஏற்படுகின்றன? ( 'பையன்' என்ற சொல்லோடு 'ஐ' வேற்றுமை விகுதி நேரடியாக இணைந்து
'பையனை' என்று வருகிறது; ஆனால் 'மரம்' என்ற சொல்லோடு 'ஐ' வேற்றுமைவிகுதி
இணையும்போது 'மரத்தை' என்று இடையில் 'அத்து' என்ற சாரியை சேர்ந்து உருவாகிறது) .
(5)
இரண்டு சொற்கள் அடுத்தடுத்து வரும்போது அவற்றின் எழுத்துக்களில் மாற்றங்கள்
ஏற்படுவது உண்டா ? ( 'அவனை' 'பார்த்தேன்'
என்ற இரண்டும் அடுத்தடுத்து வரும்போது 'அவனைப் பார்த்தேன்' என்று இடையில் 'ப்'
என்ற எழுத்து 'அவனை' என்பதோடு இணைந்து நிற்கிறது).
மேற்கூறியவைபற்றிய
அறிவைத் தருகிற துறையான உருபனியல் அறிவைக் கணினிக்கு ஏற்றவகையில் எவ்வாறு
அமைத்துக்கொடுப்பது என்பதுபற்றிய ஒரு துறையே கணினி உருபனியல் ஆகும்.
ஒரு குறிப்பிட்ட மொழியின் மேற்கூறிய சொல்பற்றிய அறிவு கணினிக்கு அளிக்கப்படும்போதுதான், அதற்கு அடுத்த கட்ட உயர்நிலை ஆய்வான கணினித்தொடரியலுக்குச் (Computational Syntax) செல்லமுடியும். ஆய்வு நோக்கில் இது ஒருபுறம்.
பயன்பாட்டு நோக்கில் பார்த்தால், கணினியானது குறிப்பிட்ட மொழிச் சொற்களின் எழுத்துப்பிழைகள், ஒற்றுப்பிழைகள், இலக்கணப் பிழைகள் போன்றவற்றைக் கண்டறிந்து, பயனாளர்களுக்கு உதவவேண்டும். தானியங்கு எழுத்துப் பிழைதிருத்தி (Auto Spell Checker), சொல்லிலக்கணப் பிழைதிருத்தி (Word Grammar Checker) , சந்திப் பிழைதிருத்தி ( Auto Sandhi Checker) இணைப்புக்குறியீடு (Hyphenation), அயல்மொழிச்சொல் - தமிழ்ச்சொல் மாற்றி (Native Word Converter) , அகராதிகள் (Dictionary) போன்ற பல சொற்பதிப்புக் கருவிகளை உள்ளடக்கிய சொல்லாளர் மென்பொருள்கள் ஒரு மொழிக்கு உறுதியாகத் தேவைப்படும். அப்போதுதான் அந்த மொழியில் ஒரு உரையைக் கணினியில் தட்டச்சு இடுபவர்கள் தங்கள் உரையைத் தவறு இல்லாமல் தயாரிக்கமுடியும்.
மேற்கூறிய அனைத்து மொழிக் கருவிகளுக்கும் மிக மிக அடிப்படையானது குறிப்பிட்ட மொழியின் கணினி உருபனியல் ஆய்வு ஆகும். தமிழ்மொழிக்கான கணினி உருபனியல் ஆய்வில் பல்கலைக்கழகங்களும் தனியார் ஆராய்ச்சி நிறுவனங்களும் தனித்த ஆய்வாளர்களும் தமிழகத்தில் கடந்த 25 ஆண்டுகளுக்குமேலாக ஈடுபட்டுவருகின்றனர். தமிழ் நாடு அரசின் தமிழ் இணையக் கல்விக் கழகமும் இதற்கான திட்டங்களுக்கு நிதி உதவியும் அளித்துவருகின்றது.
தமிழ்க் கணினி உருபனியல்
தமிழ்மொழி
ஒரு உட்பிணைப்பு - ஒட்டுமொழி ( Inflectional and agglutinative
language) ஆகும். தமிழ் மொழியில்
ஒரு அகராதிச்சொல் அல்லது அடிச்சொல் என்பது தன்னுடன் பல இலக்கணப்பண்புகளை இணைத்துக்கொள்ளும். இந்த இலக்கணப் பண்புகள் விகுதிகள்மூலம் வெளிப்பட்டு
நிற்கும். அப்போது அதன் அடிச்சொல் வடிவம் திரிபும் அடையலாம் . எடுத்துக்காட்டாக,
'நான்' என்ற தன்மை ஒருமைச் சொல்லானது 'ஐ' என்ற இரண்டாம் வேற்றுமை உருபை
ஏற்கும்போது, 'என்னை' என்று தன் வடிவத்தில் திரிந்து அமையும். பெயர்ச்சொற்கள்
திணை, பால் (Gender) , ஒருமை-பன்மை (Number) , வேற்றுமை (Case) போன்ற இலக்கணப் பண்புகளையும் வினைச்சொற்கள்
காலம் (Tense) ,
வினைக்கூறு (Aspects),
வினைநோக்கு (Modals)
வினைப்பாங்கு (Voice) போன்ற இலக்கணப் பண்புகளையும் ஏற்றுக்கொள்கின்றன.
மேற்கூறிய இலக்கணப் பண்புகள் ஒரு சில மொழிகளில் தனித்த சொற்களாகவும் (Grammatical words) ஒரு சில மொழிகளில் விகுதிகளாகவும் (Affixes) அமைகின்றன. சில மொழிகளிலும் தனிச்சொல், விகுதி
இரண்டையும் கொண்டுள்ளன.
ஒரு மொழியின் இலக்கணம் ( Grammar) என்பது இரண்டு பகுதிகளை உள்ளடக்கியது: (1) சொல்திரிபு அல்லது உட்பிணைப்பு உருபனியல் (Inflectional Morphology) (2) தொடரியல் (Syntax). ஆங்கிலத்தைப் பொறுத்தமட்டில் பெரும்பான்மையான இலக்கணக் கூறுகள் தொடரியலில் இடம்பெறுகின்றன. சொல்திரிபு உருபனியல் ஒப்புநோக்கச் சற்று எளிமையானது. ஆனால் தமிழ்மொழியில் பெரும்பான்மையான இலக்கணக்கூறுகள் சொல்திரிபு உருபனியலில் இடம்பெறுகின்றன. தொடரியல் ஒப்புநோக்க ஆங்கிலத்தைவிடச் சற்று எளிமையானது. எனவே, தமிழ்மொழியைப்பொறுத்தமட்டில் சொல்திரிபு உருபனியல் மிகவும் முக்கியத்துவம் வாய்ந்தது.
ஆங்கிலமொழியைப் பொறுத்துவரையில் பெயர்ச்சொற்கள் ஒருமை - பன்மை இலக்கணப் பண்பை விகுதிகள்மூலமே (affixes) வெளிக்காட்டிநிற்கின்றன ("boy - boys"). வேற்றுமை இலக்கணப் பண்புகளை வெளிப்படுத்தத் தனிச்சொற்களாக அமைகிற பின்னொட்டுக்கள் (Prepositionss) , விகுதிகள் இரண்டையும் பயன்படுத்துகின்றன ( "to the School", "boy's School") . குறிப்பிட்ட சில ஆங்கிலச்சொற்கள் தங்கள் வடிவமாற்றத்தின்மூலமாகவும் வேற்றுமைப் பண்பை வெளிப்படுத்துகின்றன ( "his", "him", "their", "them") சில இடங்களில் ஒரு இலக்கணப்பண்பை வெளிப்படுத்த ஒரே நேரத்தில் இரண்டையும் பயன்படுத்துகின்றன ( " is coming" "has been purchased").
தமிழைப்பொறுத்தமட்டில் இலக்கணச் சொற்கள் எல்லாம் விகுதிகளாகவே (Suffixes) நீடிக்கின்றன. ''நூல்'' என்ற பெயர்ச்சொல் பன்மை இலக்கணப்பண்பை ஏற்கும்போது , ''கள்'' என்ற விகுதியைத் தன்னுடன் இணைத்து ''நூல்கள்'' என்று அமைகிறது. அதுபோன்று செயப்படுபொருள் என்ற வேற்றுமை உறவுப் பண்பைக் காட்ட ''ஐ'' என்ற விகுதியை இணைத்துக்கொண்டு ''நூலை'' என்ற அமைகிறது.
''படி'' என்ற வினைச்சொல் இறந்தகாலத்தைக் காட்ட ''த்த்'' என்ற விகுதியையும் வினைச் செய்கிறவன் படர்க்கை ஒருமை ஆண்பால் என்பதைக் காட்ட ''ஆன்'' என்ற விகுதியையும் இணைத்துக்கொண்டு இணைத்துக்கொண்டு ''படித்தான்'' என்று அமைகிறது.
சில இலக்கணப் பண்புகளைக் காட்டும் வடிவங்கள் தனிச்சொற்கள் போன்று இருந்தாலும், அவை தனித்து வராமல் தங்களது அடிச்சொல் அல்லது அகராதிச்சொல்லுடன் இணைந்துதான் அமைகின்றன. ''அவனைப்பற்றி'' ''அவனுடன்'' ''படித்துக்கொண்டு'' போன்றவற்றில் ''பற்றி'' ''குறித்து'' ''கொண்டு'' ஆகியவை வேறு இடங்களில் தனித்து பொருண்மைச் சொற்களாக வந்தாலும் (''அவன் கைகளைப் பற்றி அறிவுரை கூறினேன்'' '' அதைக் குறித்துவிட்டேன்'' ''அதைக் கொண்டுவா'' ) , இலக்கணப் பொருள்களைக் குறித்து நிற்கும்போது தனித்து வராது.
இதுபோன்று தமிழில் ஒரு அடிச்சொல் - பெயரோ, வினையோ - தங்களுக்குரிய இலக்கணப் பண்புகளை ஏற்கும்போது, விகுதிகளை இணைத்துக்கொள்கிறது. மேலும் ஒன்றுக்குமேற்பட்ட இலக்கணப் பண்புகளை ஏற்கும்போது, அவற்றின் விகுதி வடிவங்களை ஒன்றன்பின் ஒன்றாக - மாலையில் பாசிமணிகளைக் கோர்ப்பதுபோல - இணைத்துக்கொள்கிறது. எனவேதான் தமிழை ஒரு ஒட்டுமொழி என்று அழைக்கிறார்கள்.
தமிழ்ச்சொற்களின் அமைப்பு
தமிழில்
ஒரு அடிச்சொல்லில் பத்து, பதினொன்று விகுதிகளைக்கூட இணைக்கலாம். கீழ்க்கண்ட ஒரு
வினைமுற்றுச் சொல்லில் '' எழுது'' என்ற வினைச்சொல்லுடன் 16 விகுதிகள் இணைந்துள்ளன.
''எழுதிக்காட்டவைக்கப்பார்த்தவர்களைப்பற்றிமட்டும்தானாடா''
''எழுது
- இ - காட்டு - அ- வை(க்க்) - அ - பார் - த்த் - அ(வ) - அர் - கள்- ஐ(ப்) - பற்றி - மட்டும் -
தான் -ஆ - டா ''.
மேற்கூறிய வகையில் ஏராளமான விகுதிகளை இணைத்துப் பொதுவாக யாரும் எழுதமாட்டார்கள் என்றாலும், அதற்கு வாய்ப்பு உண்டு என்பதைக் காட்டவே இந்த எடுத்துக்காட்டு. ஆங்கிலத்தில் பெரும்பான்மையாக ஒரு இலக்கண விகுதியும், சில இடங்களில் இரண்டு அல்லது மூன்று இலக்கண விகுதிகளும் இணையும்.
"boys"
(boys- s) ; "boys'(s)"
(boy-s-s) ; "beautifully" (beauty - ful - ly) .
ஆங்கிலத்தில் ஒரு வினைச்சொல்லுக்கு ஆறு திரிபு வடிவங்கள் இருக்கலாம் ( go, goes, going, went, gone, to go). ஆனால் தமிழில் ஒரு வினைச்சொல் பல இலட்ச வடிவங்களை எடுக்கலாம் ('படித்தான், படித்தேன், படித்துக்கொண்டு, படிக்க, படிக்காமல் . . . ) ; ஒரு பெயர்ச்சொல்லும் இதுபோன்று பல இலட்சம் வடிவங்களை எடுக்கலாம் ( 'பையன், பையனை, பையன்கள், பையன்களை, பையன்பற்றி, பையன்களைப்பற்றி . . . ) .
உருபன் பகுப்பாய்வு (Morphological Parsing)
எனவே,
தமிழ்ச்சொல் ஆய்வில் திரிபு ஏற்ற சொல்லைப் பகுதி , விகுதி என்று பிரிப்பதே
முதலாவது முக்கியப் பணியாக அமைகிறது. இதற்கு அடிப்படையில் தேவைப்படுபவை:
இதுபோன்று தமிழின் இலக்கண விகுதிகளையும் அவற்றின் இலக்கணப் பண்புகளோடு தொகுக்கவேண்டும். பெயரோடு இணைகிற விகுதியா, வினையோடு இணைகிற விகுதியா என்பதையும் தரவேண்டும்.
(2) தமிழ் சொல் அமைப்பில் அடுத்த ஒரு முக்கியமான பண்பு, ஒரு அகராதிச்சொல்லோடு ஒன்றுக்கு மேற்பட்ட இலக்கணவிகுதிகள் இணையும்போது, அவை எந்த வரிசையில் இணைக்கப்படவேண்டும் என்பது ஆகும். ''பையன்'' என்ற பெயர்ச்சொல் பன்மை, வேற்றுமை என்ற இரு இலக்கணவிகுதிகளை ஏற்கும்போது, அவை ஒரு குறிப்பிட்ட வரிசையில்தான் அமையவேண்டும். ''பையன் - கள் - ஐ'' என்று இணைந்து ''பையன்களை'' என்ற திரிபுச்சொல்லாக அமையவேண்டும்; மாறாக, ''பையன் - ஐ - கள்'' என்று இணைந்து, ''பையனைகள்'' என்று அமையக்கூடாது. இதை மொழியியலில் ''உருபு அமையும் வரிசைமுறை ( morpho tactics) என்று அழைப்பார்கள். எவ்விதத் தவறு இல்லாமல் இதற்கான விதிகள் கண்டறியப்படவேண்டும்.
கணினிக்காக
உருவாக்கப்படுகிற உருபனியலில் அகராதிச் சொற்களை எவ்வாறு கணினிக்கான ஒரு தரவாக
மாற்றியமைப்பது (
Computational Lexical Database) என்பதுபற்றிய அறிவு தேவை. ஒரு சொல், அதன் இலக்கண
வகைப்பாடு ( பெயர், வினை . .. ) , உள்வகைப்பாடு ( உயர்திணைப் பெயர், அஃறிணைப்பெயர்
, செயப்படுபொருள் குன்றா வினை, குன்றிய வினை . . . ), வினைகளின் கால விகுதி அல்லது
வினைத்திரிபு அறிவு போன்றவற்றையெல்லாம் கணினிக்கேற்ற ஒன்றாக எவ்வாறு அமைப்பது
என்பது இங்கு முக்கியம்.
அடுத்து, ஒரு அடிச்சொல்லோடு விகுதிகள் இணையும்போது எந்த வரிசையில் அவை இணையவேண்டும் என்ற வருகைமுறைகளைப் பற்றிய அறிவைக் கணினிக்கு எவ்வாறு அளிப்பது என்பது பற்றியதாகும். இது மிக மிக முக்கியமானது.
இறுதியாக, சொல்லும் சொல்லும் இணையும்போதோ, சொல்லும் விகுதியும் இணையும்போதோ, விகுதியும் விகுதியும் இணையும்போதோ நடைபெறும் உருபொலியன் மாற்றங்கள் பற்றிய விதிகளைக் கணினிக்கு அளிப்பது ஆகும்.
கணினிக்கு இயற்கைமொழி ஆய்வை அறிமுகப்படுத்திய நாளிலிருந்தே உலகெங்கும் கணினிமொழியியல் துறையினர் ( கணினியியல் , மொழியியல் அறிஞர்கள்) மேற்கூறிய கணினி உருபனியலுக்குப் பல்வேறுபட்ட ஆய்வு முறைகளையும் உருபன் அறிவை வெளிப்படுத்தும் மாதிரிகளையும் (Computational Morphological Formalism) முன்வைத்துவருகின்றனர். எல்லா மொழிகளுக்கும் பொதுவான மாதிரிகளும் உருவாக்கப்பட்டுள்ளன.
தமிழ்ச் சொற்களைப் பகுப்பாய்வுக்கு உட்படுத்தும்போது,
சில சிக்கல்களை எதிர்நோக்கவேண்டியிருக்கும்.
தனித்துப் பார்த்தால் , 'வேலை' என்ற சொல்லுக்கு இரண்டு
முடிவுகள் பகுப்பாய்வில் கிடைக்கும்.
ஒன்று, 'வேலை' (''job/
work") என்ற பெயரடிச்சொல்;
மற்றொன்று, 'வேல் + ஐ' ( "spear -Obj." ) என்ற இரண்டாம் வேற்றுமை ஏற்ற
ஒரு பெயர்ச்சொல். இங்கும் நமக்கு முன், பின் சொற்கள் தேவைப்படுகிறது. தமிழ்ப்
புணர்ச்சியும் உதவுகிறது.
'' குமார் கோயிலில் வேலை பார்த்தான்'' - " Kumar
worked in the temple"
''குமார் கோயிலில் வேலைப் பார்த்தான்'' - "Kumar
saw the spear in the temple"
இரண்டாவதில் ''வேலை'' என்ற சொல்லானது 'வேல்' + 'ஐ' என்ற
இரண்டாம் வேற்றுமை ஏற்ற சொல்லாக இருப்பதாலும் அடுத்து வல்லினத்தில் தொடங்குகிற
'பார்த்தான்' என்ற வினைமுற்று வருவதாலும் அங்கு ஒற்று மிகுகிறது. முதல் தொடரில்
'வேலை' என்பது இரண்டாம் வேற்றுமை ஏற்ற சொல் இல்லை என்பதால் ஒற்று மிகவில்லை. இதை
வைத்துத்தான் முடிவு எடுக்கமுடியும்.
மனித மூளையானது தனக்கே உரிய உலகறிவின் துணைகொண்டு
மேற்கூறப்பட்ட பொருண்மை, இலக்கண மயக்கங்களை எளிதில் தீர்த்துக்கொள்கிறது. ஆனால்
கணினிக்கு மிக நுட்பமாகச் சொல் அமைப்பு விதிகளை அளிக்கவேண்டும். எனவே,
மனிதர்களுக்குக் கற்றுக்கொடுக்கப்படுகிற தமிழ்ச் சொல் இலக்கணத்தைவிட, மிக
நுட்பமாகக் கணினிக்குத் தமிழ்ச் சொல்லமைப்பு விதிகள் கற்றுக்கொடுக்கப்படவேண்டும்.
அவ்வாறு கற்றுக்கொடுத்தால் கணினியால் எந்தவொரு தமிழ்ச் சொல்லையும் பகுத்து
ஆராயமுடியும். எனவே, நாம் வகுப்புக்களில் கற்றுக்கொள்கிற சொல் இலக்கணத்தைவிட,
மிகவும் ஆழமாகவும் நுட்பமாகவும் (micro-level)
அமைகிற தமிழ்ச்சொல் இலக்கணத்தைக் கண்டறிந்து கணினிக்கு அளிக்கவேண்டும்.
தமிழ்ச் சொல் இலக்கணத்தின் அமைப்புக்களுக்குத் தெளிவான விதிகள் இருப்பதால்,
முறையாக அவற்றைக் கணினிநோக்கில் ஆராய்ந்து தமிழ்க் கணினி உருபனியலில்
முன்வைக்கப்பட்டால் தமிழ் உருபன் பகுப்பாய்வியால் நன்றாகச் செயல்படமுடியும்.
(இக்கட்டுரை தமிழ் நாடு அரசின் 'பன்னாட்டுக் கணித்தமிழ்24 மாநாட்டையொட்டி, வெளியிடப்பட்ட ''கணித்தொகை - தமிழிணையம்99 முதல் கணித்தமிழ்24 வரை'' என்ற சிறப்பு மலருக்காக அளிக்கப்பட்டு, வெளியாகியது.)