செப்டம்பர் 2020 ~ ந.தெய்வ சுந்தரம்

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (1)

-----------------------------------------------------------------------------------------------------------------------

அண்மையில் சிங்கப்பூர் கல்வி அமைச்சின் எழுத்துத்தமிழ் தரவக மென்பொருள் ஒன்று 12- ஆம் உலகத் தமிழாசிரியர்கள் மாநாட்டில் வெளியிடப்பட்டது. அதுபற்றி நான் முகநூல் பக்கத்தில் எழுதியிருந்தேன். முகநூல் நண்பர்கள் சிலர் அதுபற்றிய மேலும் விவரங்கள் தர இயலுமா என்று கேட்டுள்ளார்கள். அதனடிப்படையில் இச்சிறு குறிப்பை இங்குத் தருகிறேன்.

மொழியியல் ஆய்வில் பல கோணங்களில் மொழி ஆய்வு நடைபெற்றுவருகின்றன. ஆய்வாளர்களின் நோக்கங்களின் அடிப்படையில் அவர்களுடைய ஆய்வுமுறைகளும் (schools of thought) அமைகின்றன. எடுத்துக்காட்டாக, மொழியியல் பேரறிஞர் நோம் சாம்ஸ்கி பின்கண்ட வினாக்களை முன்வைக்கிறார். மனித இனத்திற்கே சொந்தமான இயற்கைமொழி (species-specific) - வேறு எந்த உயிரினத்திற்கும் இல்லாத ஒரு மொழித்திறமை- மனிதனிடம் எவ்வாறு தோன்று வளர்கிறது?

குழந்தை மொழியைக் கற்றுக்கொள்கிறதா (learning) அல்லது பெற்றுக்கொள்கிறதா (given or language growth) ? குழந்தை பிறக்கும்போதே இயற்கைமொழித்திறன் (linguistic competence) அதனுடைய மூளைக்குள் இருக்கிறதா? பிறக்கும்போதே இருக்கிற அந்த மொழித்திறன் அல்லது மொழியிலக்கணம் என்பது இன்று நம்மிடையே இருக்கிற இயற்கைமொழிகளில் ஒன்றா? அல்லது அது அனைத்துக்கும் பொதுவான இலக்கணத்தைக் கொண்ட ஒரு இயற்கைமொழிப் பொறி அல்லது உலகப்பொதுமை இலக்கணமா (Universal Grammar - UG) ? அவ்வாறு ஒன்று பிறக்கின்ற குழந்தையின் மூளைக்குள் இருந்தால், அது எவ்வாறு அந்தக் குழந்தையின் குறிப்பான தாய்மொழியாக வளர்ச்சி அடைகிறது? இதுபோன்ற வினாக்களுக்கு விடை காண அவரும் அவரைப் பின்பற்றுகிறவர்களும் மாற்றிலக்கணம் (Generative Grammar) என்ற ஒரு கோட்பாட்டை முன்வைத்து, 70 ஆண்டுகளுக்குமேலாக ஆய்வு மேற்கொண்டு வருகிறார்கள். இது ஒருவகையான மொழியியல் ஆய்வுமுறை.

இங்கிலாந்தில் மாலினோவ்ஸ்கி, ஃபிர்த், ஹாலிடே, சின்கிளயர் போன்றோர் வேறொரு கோணத்தில் மொழி ஆய்வை மேற்கொள்ள முனைந்தனர். மொழி ஆய்வில் குறிப்பிட்ட மொழியின் பண்புகள் அல்லது அமைப்புகளும் அதனுடைய பயன்படுத்தத்தோடு தொடர்புடையவை என்பதால், மொழியமைப்பையும் (language structure) மொழிப்பயன்படுத்தத்தையும் (language function) இணைத்து ஆய்வுசெய்யும்போதுதான் அவை வெளிப்படும் என்பது இவர்களது கருத்து. மொழிச்சூழலிருந்து மொழியைப் பிரித்து ஆய்வுசெய்யக்கூடாது. இதனடிப்படையில் சிஸ்டெமிக் இலக்கணம் (Systemic Grammar) என்ற கோட்பாட்டை அவர்கள் முன்வைக்கிறார்கள். இந்த அடிப்படையில் மேற்கொள்ளப்படும் மொழியியல் ஆய்வுகள் மொழி கற்றல், கற்பித்தலுக்குப் பெரிதும் பயன்படும். இந்த இரண்டாவது வகை மொழியியல் ஆய்வில் ஒரு குறிப்பிட்ட மொழி பயன்படும் அனைத்து தளங்களிலும் இருந்து தரவுகள் முறையாகச் சேகரிக்கப்பட்டு, முறையாக வகைப்படுத்தப்பட்டு, பல நிலைகளில் ஆய்வு செய்யப்படவேண்டும் என்பதே முக்கியமானது.

இவ்வாறு முறையாக உருவாக்கப்பட்ட மொழித் தரவகமானது அம்மொழியின் அனைத்து மொழிக்கூறுகளையும் (linguistic variables) - பேச்சொலி முதல் கருத்தாடல்வரை- வெளிக்காட்டக்கூடிய ஒன்றாக அமைந்திருக்கவேண்டும். மேலும் மொழிக்கும் அதைப் பயன்படுத்தியவர்களுக்கும் இடையில் உள்ள அனைத்து சமூகமொழியியல் கூறுகளையும் (socio-linguistic variables) வெளிக்காட்டவேண்டும். இப்படிப்பட்ட ஒரு மொழித்தரவகமே அம்மொழியை முழுமையாக பிரதிநிதிப்படுத்துகிற ஒன்றாக (representative) அமையமுடியும், மேலும் இந்தத் தரவக உருவாக்கத்தில் சேகரிக்கப்படுகிற மாதிரிகள் (samples) அல்லது பனுவல்கள்(texts) , அம்மொழி பயன்படுகிற தளங்களில் ஏதாவது ஒன்றிரண்டு தளங்களிலிருந்துமட்டும் சேகரிக்கப்பட்ட மாதிரிகளாக இருந்துவிடக்கூடாது. மொழிப் பயன்பாட்டில் அத்தளங்களின் பயன்பாட்டு விகிதத்தை அடிப்படையாகக்கொண்டு , மாதிரிகளின் அளவும் ( balanced) அமையவேண்டும். இவ்வாறு ஒரு மொழியின் தரவகத்தை அமைப்பதற்கான வழிமுறைகள் தரவகமொழியியலில் முன்வைக்கப்படுகின்றன.

இவ்வாறு உருவாக்கப்பட்ட குறிப்பிட்ட மொழியின் தரவகமானது அம்மொழியின் மாதிரிகளை வெளிப்படுத்திநிற்கின்ற ஒன்றாக இருந்தாலும், அம்மாதிரிகளே அம்மொழிபற்றிய விவரங்களை அளித்துவிடாது. அதாவது தரவகமே அம்மொழியின் உள்ளார்ந்த பண்புகளை அல்லது அமைப்புகளை நமக்குத் தெரிவிக்காது. நாம்தான் அத்தரவகத்தைப் பல கோணங்களில், முறையான மொழியியல் ஆய்வுமுறைகொண்டு, ஆய்வுசெய்து விவரங்களைப் பெறவேண்டும். பலவகையான புள்ளியியல், மொழியியல் ஆய்வுகள் மேற்கொள்ளப்படவேண்டும். இதுபற்றித் தரவகமொழியியலில் விளக்கமாகக் கற்றுத் தரப்படுகிறது.

மேலும் தரவமானது ஆய்வாளரின் நோக்கத்தின் அடிப்படையில் பல வகைப்படும். ஒரு மொழியின் வரலாற்று வளர்ச்சியைக் காண்பதற்கான தரவகம் (historical corpus) , ஒரு குறிப்பிட்ட மொழியின் இன்றைய அமைப்பை அல்லது இலக்கணத்தைப் பெறுவதற்கான தரவகம் (synchronic corpus), மொழி கற்பித்தல், கற்றலுக்கான தரவகம் (corpus for language learning/ teaching) , மொழிபெயர்ப்புக்குப் பயன்படும் இரண்டுமொழிகள் அல்லது அதற்கு மேற்பட்ட மொழிகளின் இணைகளை உள்ளடக்கிய தரவகம் ( parallel corpus) என்று பலவகைப்படும். ஆய்வாளரின் நோக்கத்திற்கேற்ப தரவகமும் உருவாக்கப்படவேண்டும்,. அப்போதுதான் ஆய்வாளரின் நோக்கம் இறுதியில் நிறைவேறும். இதுபற்றி அடுத்து மேலும் எழுதுகிறேன்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (2)

------------------------------------------------------------------------------------------------------

நேற்றைய உரையில் ஒரு மொழித்தரவகத்தின் நோக்கம் என்ன என்பதுபற்றிப் பார்த்தோம். தரவக வகைகள்பற்றியும் பார்த்தோம். இன்று தரவகத்தைக் கணினி உதவியுடன் எவ்வாறு உருவாக்குவது என்பதுபற்றிப் பார்க்கலாம். முதலில் நாம் தெரிந்துகொள்ளவேண்டியது... தரவகம் என்பது வெறும் சொல் பட்டியல் ( word list) இல்லை. ஒரு மொழியின் சொற்களையெல்லாம் தொகுப்பதே தரவகம் என்று நினைத்துவிடக்கூடாது. ஒரு குறிப்பிட்ட நோக்கத்திற்காக மேற்கொள்ளப்படுகிற ஒரு கருத்தாடலே (discourse) - ஒன்றுக்கொன்று கருத்துத் தொடர்புடைய ஒரு பனுவலே (coherent text) - தரவகத்தின் அடிப்படை அலகாக அல்லது மாதிரியாக (sample) அமைகிறது. ஒரு கட்டுரை அல்லது இலக்கியத்தில் பல பத்திகள் அல்லது பகுதிகள் அமைகின்றன. அவற்றில் சில பகுதிகளைத் தேர்ந்தெடுப்பதே மாதிரிகளைத் தேர்ந்தெடுப்பதாக அமையும். அப்பகுதிகள் ஒன்றுக்கு மேற்பட்ட கூற்றுகளை ( utterances) அல்லது தொடர்களைக் (sentences) கொண்டிருக்கலாம். ஒவ்வொரு கூற்றிலும் அல்லது தொடரிலும் பல சொற்கள் பயின்றுவரலாம். எடுத்துக்காட்டாக, ஒரு புதினத்தின் தொடக்கமாக அமைகிற சில பத்திகளையோ, அல்லது இடையில் அமைகிற சில பத்திகளையோ அல்லது இறுதியில் அமைகிற சில பத்திகளையோ மாதிரிகளாகத் தேர்ந்தெடுக்கலாம். இங்குக் கவனத்தில் கொள்ளவேண்டிய மற்றொன்று.... புதினம் முழுமையையும் அப்படியே கணினியில் தட்டச்சு செய்து எடுத்தால், அது அப்புதினத்தின் மின்பனுவலாகவே ( electronic text) அமையும். தரவக மாதிரிகளாக அமையாது. எனவே ஒரு புதினத்தின் சொற்களை அப்படியே பட்டியலிடுவதோ அல்லது முழுமையாகத் தட்டச்சு செய்துகொள்வதோ, தரவக உருவாக்கமாக அமையாது. ஒருவருக்குக் காய்ச்சல் வந்தால், என்ன காய்ச்சல் என்பதைக் கண்டறிய இரத்த ஆய்வு செய்வதற்கு, அவருடைய உடலில் உள்ள இரத்தம் முழுமையையும் மருத்துவர் எடுப்பதில்லை. மலேரியா என்றால் ஒரு சில இரத்தத் துளிகள், டைபாய்டாக இருந்தால் சற்று அதிக அளவில் இரத்தம் என்று எடுக்கிறார் அல்லவா? எந்த அளவு என்பதை மருத்துவர் தீர்மானிக்கிறார். மலேரியாவிற்கு எடுக்கிற இரத்தம், மலேரியாவை மருத்துவருக்குக் காட்டுகிற வகையில் இருக்கவேண்டும். அதாவது மலேரியாவைப் பிரதிநிதிப்படுத்தவேண்டும். அதுபோல, டைபாய்டுக்கு எடுக்கிற இரத்தம், டைபாய்டைப் பிரதிநிதிப்படுத்திக் காட்டவேண்டும். ஒருவரின் உடலில் உள்ள இரத்தம் முழுவதையும் எடுப்பது கிடையாது அல்லவா? அதுபோன்றதுதான் தரவகமும். நாம் தேர்ந்தெடுப்பது மாதிரிகள்தான் என்பதில் தெளிவு வேண்டும். குறிப்பிட்ட நோய்களுக்குக் குறிப்பிட்ட அளவு இரத்தம் எடுக்கப்படுவதுபோல, ஒரு குறிப்பிட்ட நூலில் எவ்வளவு மாதிரிகள் எடுக்கவேண்டும் என்பதைத் தீர்மானிப்பது தரவகமொழியியலில் முதல்படி. அதுபோன்று மொத்தத்தில் ஒரு மொழிக்கான தரவகத்தில் இடம்பெறவேண்டிய சொற்களின் எண்ணிக்கையானது, அம்மொழியின் பயன்பாட்டு அளவு அல்லது எல்லைகளைப் பொறுத்தது ஆகும். இதற்குப் புள்ளியியல் அடிப்படைகள் பயன்படுகின்றன. தற்போதைய கணினித் தொழில்நுட்பத்தின் வளர்ச்சியின் பயனாக, மிகப் பெரிய அளவில் தரவகங்களை உருவாக்கமுடியும். தரவகம் எந்த அளவுக்குப் பெரிதாக- எந்த அளவுக்குக் குறிப்பிட்ட மொழியின் பயன்பாடுகளை உள்ளடக்குகிறதோ, அந்த அளவுக்கு அந்தத் தரவகத்தின் உதவியுடன் அந்த மொழியின் மொழியியல் கூறுகளையும் சமூகமொழியியல் கூறுகளையும் ஆராயமுடியும். தற்போதெல்லாம் பல இலட்சம் சொற்களைக்கொண்ட தரவகங்கள் உருவாக்கப்படுகின்றன. மில்லியன், பில்லியன், டிரில்லியன் என்று தரவகங்கள் உருவாக்கப்படுகின்றன. கூகிலின் தரவகங்கள் டிரில்லியன் என்று கூறுகிறார்கள். அதற்கு அதற்கான வசதிகளும் இருக்கின்றன. தானியங்கு மென்பொருள் கருவிகள் அதற்கெனவே உருவாக்கப்பட்டுள்ளன. அவற்றைக்கொண்டு மிகப்பெரிய மொழித் தரவகங்களை உருவாக்கலாம். British National Corpus (BNC) , Corpus of Contemporary American English ( COCA) ஆகியவை எல்லாம் பில்லியன் சொற்களைக்கொண்ட தரவக மாதிரிகளைக் கொண்டவை ஆகும். பன்னாட்டு நிறுவனங்களுக்கு - கூகில் போன்ற நிறுவனங்களுக்கு - இலவசமாக நம்மிடையேயிருந்து தரவகத்திற்குத் தேவையான மாதிரிகள் கிடைக்கின்றன. நாம் இணையத்தில் எழுதுகிற பனுவல்கள் எல்லாம் - மின்னஞ்சல் உட்பட- அவற்றிற்குத் தரவக மாதிரிகளே!

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (3)

-------------------------------------------------------------------------------------------------------------

தரவக உருவாக்கத்தின் ஒரு சில அடிப்படைகளைப்பற்றி முந்தைய உரையில் கூறியிருந்தேன். தரவகத்தின் அளவு (size), சொற்களின் மொத்த எண்ணிக்கை (number of words) , தேர்ந்தெடுக்கப்படுகிற மாதிரியின் கருத்து ஒன்றிணைந்த பண்பு (coherence) ஆகியவற்றைப் பற்றிச் சிறிது விளக்கினேன்.

வேறுபட்ட பனுவல் மூலங்கள்(sources) , வேறுபட்ட தலைப்புகள் (topics or domains) , வேறுபட்ட நடைகள்(styles) என்று மாதிரிகள் அமையவேண்டும். அப்போதுதான் குறிப்பிட்ட மொழியின் சமூக மொழியியல் கூறுகளையும் (socio-linguistic features) ஆராய்ந்தறியமுடியும். கட்டுரைகள், படைப்பிலக்கியங்கள். இதழ்கள், விளம்பரங்கள், அறிவிப்புகள் என்று பலவகை மூலங்களிலிருந்து மாதிரிகள் சேகரிக்கப்படவேண்டும். மேலும் வேறுபட்ட தலைப்புகளில் - குடும்பம், கல்வி, அரசியல், அறிவியல், விளையாட்டு என்று பல்வேறு தலைப்புகளில் - பல்வேறு உள்ளடக்கங்களைக் கொண்ட மாதிரிகள் தேர்ந்தெடுக்கப்படவேண்டும். அதுபோன்று, உரைநடை, மடல்கள், உரையாடல், மேடைப்பேச்சு, விவாதங்கள் என்று பலவகை நடைகளிலும் மாதிரிகள் அமையவேண்டும். அப்போதுதான் குறிப்பிட்ட மொழி எவ்வாறெல்லாம் பயன்படுத்தச் சூழலுக்கேற்ப மாறி அமைகிறது என்பதை ஆராயமுடியும். ஒரு மாதிரியைத் தேர்ந்தடுக்கும்போது, மேற்கூறிய விவரங்கள் எல்லாம் அந்த மாதிரியுடன் கணினியில் சேமிக்கப்படவேண்டும். இந்த விவரங்கள், குறிப்பிட்ட மாதிரிகளைப்பற்றிய புறவிவரங்கள் என அழைக்கப்படுகின்றன. ஆங்கிலத்தில் metadata - அதாவது data பற்றிய data என்று கூறுவார்கள். இந்த விவரங்கள் தரவகமொழியியலில் மிக முக்கியமானப் பங்கை வகிக்கின்றன. அவை ஒரு குறிப்பிட்ட மாதிரியின் சமூகமொழிக்கூறுகளை நமக்கு எடுத்துக்கூறும்.

தரவக மாதிரிகளின் மூலாதாரங்கள் அனைத்தும் கணினியில் தட்டச்சு செய்யப்பட்ட மின்கோப்புகளாக அமைந்திருந்தால், நமக்கு வேலை குறைவு. ஆனால் நடைமுறையில் அப்படி இருப்பதில்லை. அச்சடிக்கப்பட்ட நூலாகவோ, இதழாகவோ இருக்கலாம். கையெழுத்துப்பிரதிகளாக இருக்கலாம். எப்படியிருந்தாலும், அனைத்தும் கணினியில் கையாளக்கூடிய மின்கோப்புகளாக, மின்பனுவலாக மாற்றப்படவேண்டும். ஸ்கேன் செய்து , பின்னர் ஒளிவழி எழுத்தறிவான்மூலம் (OCR) மின்கோப்புகளாக மாற்றலாம். கணினியிலேயே தட்டச்சு செய்யலாம். ஸ்கேன் செய்து, கிடைக்கிற படக்கோப்புகளை எழுத்துப்பனுவலாக மாற்றும்போது, பல சிக்கல்கள் ஏற்படும். எழுத்துகள் சரியாகத் தெரியாமல் இருக்கலாம். அல்லது எழுத்துகள் மென்பொருளால் தவறாகப் புரிந்து கொள்ளப்பட்டிருக்கலாம். எனவே அவற்றை எல்லாம் முதலில் சரிசெய்யவேண்டும். அடுத்த வேலை, உருவாக்கப்பட்ட மின்பனுவல்களைப் மெய்ப்புத்திருத்தத்திற்கு உட்படுத்தவேண்டும். இல்லையென்றால், கணினிவழித் தானியங்கு மொழியாய்வுக் கருவிகள் தவறான முடிவுகளைத் தந்துவிடும். அல்லது குறிப்பிட்ட சொல்லை ஆராயமுடியாமல் போய்விடும்.. ஆனால் கோடிக்கணக்கான சொற்களைக்கொண்ட மின்தரவகத்திற்கான கோப்புகளை நாமே மெய்ப்புத்திருத்தம் செய்வது கடினம். எனவே அதற்குத் தானியங்கு மெய்ப்புத்திருத்த மென்பொருள்களை - சொற்பிழைதிருத்தி, சந்திப்பிழைதிருத்தி போன்றவற்றை - பயன்படுத்துவது நல்லது.

இவ்வாறு மெய்ப்புத்திருத்தம் செய்யப்பட்ட பனுவல்களை அப்படியே மாதிரிகளாக இணைத்துவிடமுடியுமா? முடியாது. இந்தப் பனுவல்களின்மீது வேறுசில பணிகளை மேற்கொள்ளவேண்டும். அதுபற்றி நாளை பார்க்கலாம்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (4)

--------------------------------------------------------------------------------------------------------------

அச்சுப் படி, கையெழுத்துப் படி போன்றவற்றைக் கணினி உதவியுடன் மின்பனுவலாக மாற்றி, அதிலிருந்து தரவகத்தில் இடம்பெறுகிற மாதிரிகளை எவ்வாறு உருவாக்குவது என்பதைப்பற்றி முந்தைய உரையில் பார்த்தோம். அவ்வாறு இடம்பெறுகிற மாதிரிகளில் எழுத்துப்பிழை, சந்திப்பிழை, தொடர்ப்பிழை போன்றவை இல்லாமல் பார்த்துக்கொள்வது மிகத் தேவையான ஒன்று என்பதையும் வலியுறுத்தினோம். அப்போதுதான் மாதிரிகளின் இடம்பெற்றுள்ள மொழியின் மொழிக்கூறுகளைத் தகுந்த மொழி ஆய்வு தானியங்கு மென்பொருள்களைக்கொண்டு ஆய்வுசெய்ய இயலும் என்பதையும் விவாதித்தோம். மேலும் ஒவ்வொரு மாதிரியுடனும் அது இடம்பெற்ற நூல் அல்லது பனுவல்பற்றிய மேல்விவரங்களையும் சேமித்துக்கொள்ளவேண்டும் என்றும் பார்த்தோம். அப்போதுதான் மொழியின் சமூகமொழியியல் கூறுகளை அல்லது பண்புகளை ஆராய்ந்து கண்டறிய இயலும் என்பதையும் வலியுறுத்தினோம்.

அடுத்து....?

தரவகமொழியியல் ஆய்வின் முதல் படி ... மாதிரிகளில் இடம்பெற்றுள்ள கூற்றுகள், தொடர்கள் ஆகியவற்றிலிருந்து சொற்களைப் பிரித்தெடுக்கவேண்டும். ' நேற்று கண்ணன் என்னைப் பார்க்க எனது வீட்டுக்கு வந்தார்' என்ற தொடரில் ஏழு சொற்கள் இடம் பெற்றுள்ளன. இந்த ஏழு சொற்களும் தரவகமொழியியலில் சொல்-வில்லை ( token) என்று அழைக்கப்படுகின்றன. ஒவ்வொரு சொல்-வில்லையும் அகராதியில் இடம்பெற்றுள்ள தனிச்சொல்லாகவோ அல்லது பலவகையான இலக்கணவிகுதிகளை ஏற்ற சொல்லாகவோ (Inflected words / Word-form) அமைந்திருக்கலாம். மேலே கொடுக்கப்பட்டுள்ள தொடரில் 'நேற்று', 'கண்ணன்' இரண்டும் விகுதிகள் இடம்பெறாத சொற்களாக அமைந்துள்ளன. 'என்னைப்', 'பார்க்க', 'எனது', 'வீட்டுக்கு', 'வந்தார்' ஆகிய ஐந்து சொற்களும் இலக்கணவிகுதிகளை ஏற்று வந்துள்ள சொற்களாகக் காணப்படுகின்றன.

எந்த அடிப்படையில் இந்தச் சொல்-வில்லைகளைப் பிரித்தறிந்தோம்? ஒவ்வொன்றுக்கும் இடையில் அமைந்துள்ள இடைவெளி நமக்கு உதவுகிறது. ஆகவே இரண்டு சொல்-வில்லைகளுக்கு இடையேயுள்ள இடைவெளி மிக முக்கியமான ஒன்று. சரி.... ' நேற்று கண்ணன் என்னைப் பார்க்க எனது வீட்டுக்கு வந்து இருந்தார்' என்று தொடர் அமைந்து, இடைவெளி என்ற ஒரு அடிப்படையைக்கொண்டு சொல்-வில்லைகளை ஆராய்ந்தால் , எட்டுச் சொல்-வில்லைகள் கிடைக்கின்றன. இது சரியா? ஒவ்வொரு சொல்வில்லைக்கும் சொற்பொருண்மையும் இலக்கணப்பொருண்மையும் உண்டு. எடுத்துக்காட்டாக, 'பார்க்க' என்ற சொல்-வில்லையானது 'பார்' என்ற அகராதிச்சொல்லின் பொருண்மையையும் செய வாய்பாட்டு வினையெச்ச இலக்கணப் பொருண்மையையும் கொண்டதாகும். 'வீட்டுக்கு' என்ற சொல்-வில்லையானது 'வீடு' என்ற அகராதிச்சொல்லின் பொருண்மையையும் நான்காம் வேற்றுமை உறவை வெளிக்காட்டுகிற இலக்கணப் பொருண்மையையும் கொண்டுள்ளது. சரி... 'இருந்தது' என்ற சொல்-வில்லையின் (???) அகராதிப் பொருண்மையும் இலக்கணப் பொருண்மையும் என்ன? 'இருத்தல்' என்ற சொல்பொருண்மையுடன், காலம், திணை-எண்-பால் ஆகிய இலக்கணப் பொருண்மைகளும் இணைந்து நிற்கின்றன என்று கொள்ளலலாமா? அதாவது 'நேற்று கண்ணன் என்பவர் எனது வீட்டுக்கு வந்து, இருந்தார்' என்ற பொருளுடைய தொடர் என்று நாம் கொள்ளலாமா? அப்படியென்றால், 'நேற்று கண்ணன் எனது வீட்டுக்கு வந்து, தாழ்வாரத்தில் இருந்தார்' என்று இடையில் 'தாழ்வாரத்தில்' என்ற ஒரு சொல்-வில்லையைச் சேர்க்கமுடியும். ஆனால் 'இருந்தார்' என்பது அந்தப் பொருண்மையில் வராமல், 'வா' என்ற சொல் குறித்து நிற்கும் செயலானது முடிவடைந்து நிற்கிறது என்பதைச் சுட்டிக்காட்டினால் .... 'வந்திருந்தார்' என்றுதான் அமையவேண்டும். அவற்றிற்கிடையில்' தாழ்வாரம்' போன்ற வேறு சொற்களைச் சேர்க்கமுடியாது. இங்கு 'இருந்தார்' என்பது முதன்மைவினை இல்லை. மாறாக, ஒரு செயல் முடிவடைந்த நிலையில் இருப்பதைச் சுட்டிக்காட்டும் ஒரு இலக்கணப் பொருண்மையையே சுட்டிக்காட்டி நிற்கிறது. இது ஒரு துணைவினை - அதாவது முதன்மைவினையான 'வா' என்பதோடு இணைந்துநிற்கிற ஒரு துணைவினையாகும். இங்கு நாம் கவனமாகப் பார்க்கவேண்டியது .... 'வந்தது' என்பது முதன்மை வினையாகப் பயின்றுவந்தால், பிரித்து எழுதவேண்டும். மாறாக, துணைவினையாகப் பயின்றுவந்தால், பிரித்து எழுதாமல், முதன்மைவினையோடு இணைத்துத்தான் எழுதவேண்டும். முதன்மைவினைக்கும் துணைவினைக்கும் இடையில் வேறு எந்த ஒரு சொல்லையும் சேர்க்கமுடியாது. ( சில விதிவிலக்குகள் உண்டு. அவற்றைப் பின்னர் விளக்குகிறேன்.). வந்து இருந்தார்' என்று எழுதியிருந்தால், அவற்றை இரண்டு சொல்-வில்லைகளாகக் கணினி மென்பொருள் எடுத்துக்கொள்ளும். அவ்வாறு இல்லாமல், 'வந்திருந்தால்' என்று இடைவெளி இல்லாமல் எழுதியிருந்தால், ஒரு சொல்-வில்லையாக மென்பொருள் எடுத்துக்கொள்ளும். அதுபோல 'அவனைப்பற்றி ' என்பது ஒரே சொல்-வில்லை! 'அவனைப் பற்றி' என்பது இரண்டு சொல்-வில்லைகளாகும். 'பற்றி' என்பது 'பற்று' என்ற முதன்மைச்சொல்லின்- முதன்மை வினையின்- செய்துவாய்பாட்டு வினையெச்சமா அல்லது 'பற்றி' என்ற பின்னொட்டா? பின்னொட்டாக இருந்தால் 'அவனைப்பற்றி' என்றுதான் எழுதவேண்டும். பிரித்து எழுதக்கூடாது. மாறாக, முதன்மை வினையாக இருந்தால், 'அவனைப் பற்றி' என்று பிரித்து எழுதவேண்டும். அப்போதுதான் ஒரு மாதிரியில் காணப்படும் சொல்-வில்லைகளின் எண்ணிக்கையைச் சரியாகக் கணிக்கமுடியும்.

ஒரு பனுவல் அல்லது மாதிரியில் அமைந்துள்ள சொல்-வில்லைகளைக் கண்டறிய , முதலில் மேலேசொன்னவாறு சரியாக எழுதப்பட்டிருக்கிறதா- அதாவது பிரிக்கக்கூடாத இடத்தில் பிரிக்காமலும், பிரிக்கவேண்டிய இடத்தில் பிரித்தும் எழுதப்பட்டிருக்கிறதா என்பதை ஆராயவேண்டும். இதில் தவறுகள் காணப்பட்டால், நாம் அவற்றைச் சரிப்படுத்தவேண்டும். இதை ஆங்கிலத்தில் "normalization" என்று அழைப்பார்கள். ஆங்கிலத்தில் "isn't ', "Iam" என்பவற்றை 'is not" , "i am " என்று இரண்டிரண்டு சொல்வில்லைகளாகக் கொள்வார்கள். ஆங்கில இலக்கண மரபுக்கேற்ப அவற்றைச் சேர்த்து எழுதினாலும், தரவகமொழியியல் ஆய்வில் அவற்றை இரண்டு சொல்-வில்லைகளாகவே கொள்ளவேண்டும். இந்த இலக்கணமரபு மொழிக்கு மொழி வேறுபடும். தமிழில் இலக்கணச் சொற்கள் பொதுவாகத் தனித்து வராது. 'அவன் வர வேண்டும் என்பது சரியல்ல. 'அவன் வரவேண்டும்' என்றுதான் அமையவேண்டும். இங்கு 'வேண்டும்' என்பது அகராதிச்சொல் இல்லை. மாறாக, ஒரு இலக்கணச்சொல்... ஒரு துணைவினை! '

எனவே எழுத்துப்பிழை, சந்திப்பிழை போன்றவற்றைச் சரிபார்ப்பதோடு நிறுத்திக்கொள்ளாமல், தரவகமொழியியலில் ஒரு மொழியின் இலக்கணத்திற்கேற்ப தொடர்களைச் சரிப்படுத்தவேண்டும். அதன்பிறகுதான், தரவகமொழியியலின் அடுத்த கட்டத்திற்கு நகரமுடியும் அல்லது நகரவேண்டும்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (5)

--------------------------------------------------------------------------------------------------------------------

தரவகத்திற்கான மாதிரிகளை எவ்வாறு சேகரிப்பது அல்லது தொகுப்பது என்பதுபற்றி முந்தைய உரைகளில் பார்த்தோம். முதலில் மின்கோப்புகளாக மாற்றவேண்டும். பின்னர்ச் சொற்பிழை, இலக்கணப்பிழை ஏதேனும் இருந்தால், அவற்றைத் திருத்தவேண்டும். பின்னர்க் குறிப்பிட்ட மொழியின் இலக்கணத்தின்படி சொற்களைப் பிரித்தோ அல்லது இணைத்தோ மாற்றவேண்டும். மேலும் மாதிரிகள் எடுக்கப்படுகிற ஆதார மூலங்களின் விவரங்களை (metadata) இணைக்கவேண்டும்.

மேற்கூறியவாறு தொகுப்பட்ட அல்லது உருவாக்கப்பட்ட தரவக மாதிரிகளை அடுத்தகட்டமாக ஆய்வு செய்யவேண்டும். தரவகமொழியியலில் மிக அடிப்படையான மூன்று கலைச்சொற்கள் உண்டு. ஒன்று சொல்-வில்லை (token). இரண்டாது, சொல்வகை (type). மூன்றாவது அகராதிச்சொல் ( lemma). மாதிரிகளில் காணப்படுகிற அல்லது இடம்பெறுகிற அனைத்துச் சொற்களும் சொல்-வில்லை என வழங்கப்படுகிறது. இந்தச் சொல்-வில்லைகளின் எண்ணிக்கையை வைத்தே தரவகத்தின் அளவும் குறிக்கப்படுகிறது. 10 இலட்சம் சொல்-வில்லைத் தரவகம், 100 இலட்சம் சொல்-வில்லைத் தரவகம் என்றெல்லாம் கூறப்படுகிறது. ஒரே சொல்-வில்லை ஒரு தரவகத்தில் எவ்வளவு எண்ணிக்கையிலும் வரலாம். எடுத்துக்காட்டாக, ''படித்தான்'' என்பது ஒரு சொல்-வில்லை என்றால், இது 1000 தடவை, 10000 தடவை என்று மீண்டும் மீண்டும் ஒரு தரவகத்தில் இடம்பெறலாம். அதாவது மறுபகர்ப்பு (repetition) இருக்கலாம். இந்தச் சொல்-வில்லை இலக்கண விகுதிகள் தோன்றாத ஒன்றாகவும் இருக்கலாம் ('வா, போ, மாணவன்) ; அல்லது இலக்கணவிகுதிகளை ஏற்ற ஒன்றாகவும் இருக்கலாம். ('வந்தான், போனான், மாணவனுக்கு). இவ்வாறு சொல்-வில்லைகளைக் கண்டறிந்தபிறகு, சொல்வகைகளைக் கண்டறியவேண்டும. தரவகத்தில் 'படித்தான்' என்ற சொல்-வில்லை மீண்டும் மீண்டும் வந்தாலும், அது ஒன்றுதானே. அதாவது ஒரேவகைதானே. ஒரே பொருண்மையைச் சுட்டியும் ஒரேவகையான இலக்கணவிகுதிகளையும் பெற்றிருக்கிறது அல்லவா? எனவே 'படித்தான்' என்பது ஒரு சொல்வகை. வகைக்கு ஒன்று என்று , சொல்-வில்லைகளிலிருந்து தேர்ந்தெடுப்பதே சொல்வகை ஆய்வாகும். இது ஒரு எளிதான பணி என்று நினைக்கலாம். எம் எஸ் ஆபிசில் உள்ள எக்செல் மென்பொருளைக்கொண்டு , எளிதாக இந்த மறுபகர்ப்பை நீக்கிவிடலாம் என்று நினைக்கலாம். ஆனால் அது அவ்வளவு எளிதான பணி இல்லை. 'வந்தது' என்ற ஒரு சொல்-வில்லை ஆயிரம் தடவை ஒரு தரவகத்தில் வருகிறது என்று கொள்வோம். எக்செல் மென்பொருள் என்ன செய்யும்? 999 மறுபகர்ப்புகளை நீக்கிவிடும். அது சரியா? மறுபகர்ப்பாக அமைகிற ஒரு சொல்-வில்லை ஒரே பொருண்மையுடையதாகவும் ஒரே இலக்கணவிகுதிகளைப் பெற்றதாகவும், அதாவது ஒரே இலக்கணக்குறிப்பை உடையதாகவும் இருக்கவேண்டும். 'அது வந்தது' என்ற தொடரில் 'வந்தது ' என்பது வினைமுற்று. 'வந்தது எது?' என்ற தொடரில் 'வந்தது' என்பது வினையாலணையும் பெயர். 'நீ வந்தது எனக்குப் பிடிக்கவில்லை.' - இங்கு 'வந்தது' என்பது தொழிற்பெயர். இதைக் கணக்கில் கொள்ளாமல், மறுபகர்ப்பு என்ற அடிப்படையில் 999 'வந்தது' என்ற சொல்-வில்லைகளை நீக்கிவிட்டால், மூன்று வகைகளில் ஏதாவது ஒன்றுதான் தரவகத்தில் நீடிக்கும், ஏனைய இரண்டும் தரவகத்தில் இடம்பெறாமல் போய்விடும். இச்சிக்கலை எவ்வாறு தீர்ப்பது? சொல்-வில்லைகளைச் சொல்வகைகளாக ஆய்வுசெய்வதற்குமுன்னரே சொல்பகுப்பி , இலக்கணக்குறிப்புச்சுட்டி ஆகிய இரண்டு மென்பொருள் கருவிகளைக்கொண்டு (morphological parser and POS tagging ) எல்லா சொல்-வில்லைகளையும் ஆய்வுசெய்து, இலக்கணக்குறிப்புடன் அனைத்து சொல்-வில்லைகளையும் தரவகத்தில் ஏற்றவேண்டும். இப்போது எக்செல்லோ அல்லது நாமே உருவாக்குகிற மென்பொருளோ, சரியான முறையில் மறுபகர்ப்பை நீக்கும். அதாவது, வெறும் சொல்-வில்லைகளைமட்டும் கணக்கில்கொண்டு, மறுபகர்ப்பை நீக்காமல், அவற்றின் இலக்கணக் குறிப்புகளையும்கொண்டு, உண்மையான மறுபகர்ப்பை மட்டும் எடுத்துவிடும். அதாவது, 'வந்தது - வினைமுற்று' 'வந்தது-வினையாலணையும்பெயர்' 'வந்தது - தொழிற்பெயர்' மூன்றும் வெவ்வேறாகக் கருதப்பட்டு, , தனித்தனிச் சொல்வகைகளாக எடுக்கப்படும். தானியங்கு சொல்பகுப்பியானது 'வந்தது' என்பதற்கு மூன்று இலக்கணக்குறிப்புகளையும் அளிக்கும். நாம்தான் குறிப்பிட்ட தொடரில் வருகிற 'வந்தது' என்பது இந்த மூன்றில் எது என்பதைக் கண்டறியவேண்டும. கணினிவழியே தானியங்கு மென்பொருள்கொண்டு இச்செயலை மேற்கொள்ளவேண்டுமானால், அதற்கு ஒரு வழி புள்ளியல் அறிவியலைப் (Probabilistic statistics - Probabilistic linguistics) பயன்படுத்துவதாகும். மற்றொரு வழி இயந்திரக் கற்றல் ( machine learning) வழிமுறையாகும். மூன்றாவது, சொற்சூழல்அடைவு (concordancer) துணைகொண்டு, நாமே குறிப்பிட்ட சொல்லுக்கான இலக்கணக்குறிப்பைக் கண்டறியவேண்டும். மிகவும் கடினமான பணிதான். ஆனால் வேறுவழியில்லை தற்போது.

'வந்தது' என்ற சொல்-வில்லையைச் சொற்பகுப்பி கொண்டு பகுக்கும்போது, ' வா+ந்த்+அது' என்ற ஒரே பகுப்புதான் கிடைக்கும். தொடரின் சூழலைப்பொறுத்து இலக்கணக்குறிப்புகள் மாறியமைகிறது. மற்றொரு வகை சிக்கலும் இங்கு நாம் எதிர்நோக்கலாம். 'படுத்து' என்ற சொல்லுக்கு இரண்டுவகை பகுப்பாய்வு கிடைக்கும். ஒன்று, 'படு +த்து' என்ற பகுப்பு. இதில் 'படு' வினைச்சொல்; -த்து என்பது செய்துவாய்பாட்டு வினையெச்ச விகுதி. மற்றொரு பகுப்பில் 'படுத்து' என்பதே ஒரு வினையடி. 'குழந்தை படுத்துகிறது' என்ற தொடரில் வருகிற ஒரு வினையடி. ஆனால் ' குழந்தை படுத்து எழுந்துவிட்டான்' என்ற தொடரில் அது செய்து வாய்பாட்டு வினையெச்சம்.

எனவே, தரவகத்தில் இடம்பெற்றுள்ள சொல்-வில்லைகளைச் சொல்வகைகளாக ஆய்வு செய்வதற்கு முதலிலேயே சொற்பகுப்பாய்வியும் இலக்கணக்குறிப்புச் சுட்டியும் (POS Tagger) தேவைப்படுகிறது. ஆங்கிலத்தில் "book" என்பது வினையடியாகவும் இருக்கிறது. பெயர்ச்சொல்லாகவும் இருக்கிறது. ''walking" என்பது வினையெச்சமாகவும் அமைகிறது (He is walking) ; தொழிற்பெயராகவும் (gerund) அமைகிறது (Walking is good") . எனவே ஆங்கிலத்திலும் இதுபோன்ற பிரச்சினை உண்டு. எந்த மொழியிலும் தரவக மொழியியலில் முதல்படி, சொல்-வில்லைகளைச் சொல்வகைகளாக ஆய்வுசெய்வதுதான். குறிப்பிட்ட மொழிசார்ந்த புலமை இல்லாமல், இப்பணியைச் சரியாகச் செய்யமுடியாது. இதற்கான வழிமுறைகளைப்பற்றிப் படிப்பதுதான் கணினிமொழியியல் ஆகும் என்பதை இங்குக் கூறவிரும்புகிறேன்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) –(6)

---------------------------------------------------------------------------------------------------------------------

முந்தைய ஐந்தாவது தொடரில் சொல்-வில்லைகளிலிருந்து( Tokens) சொல்வகைகளைக் ( Types) கண்டறிவதில் உள்ள சிக்கல்களைப்பற்றிய சில செய்திகளைப் பார்த்தோம். பல இலட்சங்கள் அல்லது கோடியில் சொல்-வில்லைகளைக்கொண்டு உருவாக்கப்படுகிற தரவகத்தில் மறுபகர்ப்புகளை (repetitions) அகற்றி, சொல் வகைகளைக் கண்டறிவதே தரவக ஆய்வின் முதல் படி. 'அடி' என்ற சொல்-வில்லையானது பெயராகவும் இருக்கலாம். வினையாகவும் இருக்கலாம். 'பார்த்தது' என்பது வினைமுற்றாகவும் இருக்கலாம்; வினையாலணையும் பெயராகவும் இருக்கலாம்; தொழிற்பெயராகவும் இருக்கலாம். 'சிங்கம் நரியைப் பார்த்தது' என்பதில் 'பார்த்தது' என்பது வினைமுற்று; 'நான் பார்த்தது சன் தொலைக்காட்சி' என்பதில் 'பார்த்தது ' என்பது வினையாலணையும்பெயர். 'நான் பார்த்தது அவருக்குத் தெரியாது' என்பதில் 'பார்த்தது' என்பது தொழிற்பெயர். இதுபோன்ற பொருள்- மயக்கம், இலக்கணமயக்கம் ஆகியவை சொல்-வில்லைகளைச் சொல்வகைகளாக ஆய்ந்தறிவதில் சிக்கல்களைத் தரும். ஒவ்வொரு சொல்-வில்லையின் இலக்கணக் குறிப்பையும் (Parts-of-speech) தகுந்த அகராதி (Lexicon) , சொல்- பகுப்பி (morphological parser) , இலக்கணக்குறிப்புச்சுட்டி (POS ) ஆகியவற்றின் துணைகொண்டு கண்டறிந்தபிறகுதான் இந்தச் செயலையே மேற்கொள்ளமுடியும் என்று பார்த்தோம்.

ஒரு தரவகத்தில் பத்து இலட்சம் சொல்-வில்லைகள் இடம்பெற்றுள்ளன என்று கொள்வோம். அவற்றைச் சொல்வகைகளாக ஆய்ந்தறியும்போது - மறுபகர்ப்புகளை நீக்கியபிறகு- மூன்று இலட்சம் சொல்வகைகள் கிடைக்கின்றன என்று கொள்வோம். இப்போது ஒரு புள்ளியியல் கணக்கைப் (statistical analysis) பார்க்கலாம். சொல்வகை; சொல்-வில்லை விகிதத்தைப் (Type : Token ratio) பார்க்கலாம். ஒன்பது இலட்சம் சொல்-வில்லைகளுக்கு மூன்று இலட்சம் சொல்வகைகள் இருந்தால், 300000/ 900000 = 3 / 9 = 1/3: என்ற விகிதத்தில் - அதாவது மூன்று சொல்-வில்லைகளுக்கு ஒரு சொல்வகை இருக்கிறது. . மறுபகர்ப்பானது (repetition) மூன்றுக்கு இரண்டு என்ற விகிதம்.

மற்றொரு தரவகத்தில் பத்து இலட்சம் சொல்-வில்லைகள்; அதேவேளையில் பத்து இலட்சம் சொல்-வகைகள் என்றால், என்ன முடிவுக்கு நாம் வரலாம்? 1 / 1 = 1 . அதாவது ஒரு சொல்-வில்லைக்கு ஒரு சொல்-வகை. இங்கு மறுபகர்ப்புக்கே இடம் இல்லை. அதாவது ஒவ்வொரு சொல்-வில்லையும் வெவ்வேறானது. அத்தனையும் தனிச்சொல்வகை. இது ஒரு கற்பனையே. ஆனால் இதுபோன்ற விகிதக் கணக்கு நமக்கு ஒரு தரவகத்தின் சொல் அடர்த்தியைச் (lexical density) சுட்டிக்காட்டுகிறது. முதல் எடுத்துக்காட்டில் சொல் அடர்த்தியானது மூன்றில் ஒரு பங்கே. ஆனால் இரண்டாவது எடுத்துக்காட்டில் சொல் அடர்த்தியானது நூற்றுக்கு நூறு. அதாவது இந்த விகிதத்தின் உயர்ந்த அளவு 1 (ஒன்று). இந்த விகிதம் குறையக் குறைய , தரவகத்தின் சொல் அடர்த்தியும் குறைந்துகொண்டு செல்கிறது.

மீண்டும் ஒரு செய்தியை நினைவுபடுத்துகிறேன். ஒரு தரவகத்தின் அளவை அதில் இடம்பெற்றுள்ள சொல்-வில்லைகளைக்கொண்டுதான்(token) குறிக்கிறோம். சொல்வகைகளைக் (type) கொண்டு அல்ல ; ஒரு தரவகத்தின் சொல்-வில்லைகளின் எண்ணிக்கையானது அதிகரிக்க, அதிகரிக்க - இலட்சங்கள் பத்து இலட்சங்களாக , பத்து இலட்சங்கள் கோடிகளாக அதிகரிக்க அதிகரிக்க - அதே அளவுக்குச் சொல்வகைகள் அதிகரிக்காது. அதாவது சொல்வகை : சொல்-வில்லை விகிதம் குறைந்துகொண்டே செல்லும். எடுத்துக்காட்டாக, ஒரு மொழியின் தரவகம் முதலில் பத்து இலட்சம் சொல்-வில்லைகள் என்று கொள்வோம், சொல்வகைகள் மூன்று இலட்சம் என்று கொள்வோம். சொல்-வில்லைகளைத் தரவகத்தில் அதிகரித்துக்கொண்டே செல்கிறோம் என்று கொள்வோம். ஆனால் அந்த அதிகரிப்புக்கு ஈடுகொடுத்து சொல்வகைகளும் அதே எண்ணிக்கையில் அதிகரிக்காது. சொல்-வில்லைகளின் எண்ணிக்கை விரிவாக்கம் நமது சேகரிப்பு உழைப்பைப் பொறுத்துள்ளது. ஆனால் சொல்வகைகளின் எண்ணிக்கை அவ்வாறு இல்லை. அது குறிப்பிட்ட மொழியின் அமைப்பைப் பொறுத்துள்ளது.

எடுத்துக்காட்டாக, இன்றைய எழுத்துத்தமிழ் தரவகத்தில் முதலில் ஐம்பது இலட்சம் சொல்-வில்லைகள் என்று கொள்வோம். சொல்வகைகள் அவ்வளவு எண்ணிக்கையில் இருக்காது. ஒரு சில இலட்சங்களே இருக்கும். இப்போது மீண்டும் தரவகத்தின் அளவைக் களப்பணி மூலம் விரிவாக்கம் செய்கிறோம் என்று கொள்வோம். சொல்-வில்லைகள் நூறு கோடி என்று கொள்வோம். சொல்வகைகள் ? முன்னர் நீடித்த சில இலட்சங்களுடன் வேண்டுமென்றால் மேலும் சில இலட்சங்கள் கூடியிருக்கலாம். அவ்வளவுதான். இப்போது சிந்தித்துப் பாருங்கள். மிகப் பெரிய தமிழ் அகராதியில் உள்ள ஐந்து அல்லது ஆறு இலட்சம் அகராதிச்சொற்களின் (அகராதிச்சொல் - Lexicon- என்பது சொல்-வில்லையும் இல்லை; சொல்வகையும் இல்லை. இதுபற்றிப் பின்னர் பார்ப்போம்) அனைத்து சொல்வகைகளும் பத்துகோடி சொல்-வில்லைகள்கொண்ட தரவகத்தில் கிடைத்துவிட்டது என்றால், மேலும் மேலும் தரவகத்தை விரிவாக்குவதினால் , சொல்-வகைகளின் எண்ணிக்கை மேலும் கூடுமா? இது கற்பனையான வினாதான்! இன்றைய எழுத்துத்தமிழில் உள்ள அகராதிச்சொற்கள் எவ்வளவு? அந்த அகராதிச்சொற்களின் சொல்வகைகளின் எண்ணிக்கை எவ்வளவு என்று தற்போதைய தமிழ்மொழி ஆய்வுநிலையில் கூறமுடியுமா? ஏன் கூற முடியவில்லை? சிந்தித்துப் பாருங்கள்!

நண்பர்களே! இதை விளக்கி எழுதும்போது எனக்கே குழப்பங்கள் ஏற்பட்டன. எனவே இதைப் படிக்கும் தங்களுக்கும் முதலில் குழப்பம் ஏற்படும். ஆனால் முழுமையாகப் படித்தபின்னர் குழப்பம் அகன்றுவிடும் என்று நம்புகிறேன்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (7)

--------------------------------------------------------------------------------------------------------------------

நேற்று ஒரு மொழியின் தரவகத்தில் இடம்பெறுகிற சொல்-வில்லைகள்(token) , அவற்றிலிருந்து ஆய்வின் அடிப்படையில் பெறப்படுகிற சொல்வகைகள் பற்றி (type) விரிவாகப் பார்த்தோம். மேலும் சொல்-வில்லை-சொல்வகை விகிதம்பற்றிய (Type : Token ratio) ஆய்வு எவ்வாறு சொல் அடர்த்தியைக் (Lexical Density) கண்டறியப் பயன்படுகிறது என்பதையும் விவாதித்தோம்.

சொல்-வில்லைகளிலிருந்து சொல்வகைகளைப் பெறுவதற்கான ஆய்வானது தரவக மொழியியலில் முதல்படி. அடுத்த ஆய்வு, சொல்வகைகளிலிருந்து வேர்ச்சொற்கள் அல்லது அகராதிச்சொற்களைக் கண்டறியும் ஆய்வாகும். சொல்வகைகளுக்கும் அகராதிச்சொற்களுக்கும் இடையில் என்ன உறவு? என்ன வேறுபாடு? என்பதில் தெளிவு தேவை.

தமிழில் 'படி' என்ற ஒரு வினைச்சொல்லானது காலவிகுதி, திணை-எண்-பால் விகுதி, பெயரெச்ச, வினையெச்ச விகுதிகள், வினைநோக்கு (modals), வினைப்பாங்கு (Aspectuals) போன்ற பலவகை இலக்கணவிகுதிகளுடன் இணைந்து ஆயிரக்கணக்கான வினைவடிவங்களை (inflected forms) உருவாக்குகின்றன. 'படிக்கிறேன், படித்தேன், படிப்பேன், படிக்க, படித்து, படிக்காமல், படித்துக்கொண்டு, படித்துவிட்டு, படித்திருந்து ' என்று ஏராளமான திரிபுகளைத் தருகின்றன. இவை அனைத்துக்கும் வேர்ச்சொல் அல்லது அகராதிச்சொல்லானது 'படி' என்பதே. இதுபோன்று, ஒரு பெயர்ச்சொல்லும் வேற்றுமைவிகுதிகள், பன்மைவிகுதிகள் போன்ற இலக்கணவிகுதிகளுடன் இணைந்து நூற்றுக்கணக்கான சொற்களை உருவாக்கும். 'மரம், மரங்கள், மரத்தை, மரங்களை, மரத்தோடு, மரங்களோடு, மரங்களால், மரத்தில்' என்று விரித்துக்கொண்டே செல்லலாம். ஆனால் அடிச்சொல் அல்லது வேர்ச்சொல் அல்லது அகராதிச்சொல் 'மரம்' என்ற ஒன்றுதான். இவ்வாறு அகராதியில் இடம்பெறுகிற ஒரு வினையோ அல்லது பெயரோ ஆயிரக்கணக்கான மாற்றங்களைப் பெறுகின்றன. இந்த ஒவ்வொரு மாற்றமும் ஒரு சொல்வகை. அதாவது, 'படித்தான்' என்பது ஒரு சொல்வகை; 'படித்து' என்பது ஒரு சொல்வகை. 'மரத்தை' என்பது ஒரு சொல்வகை; 'மரங்களால்' என்பது ஒரு சொல்வகை. இவ்வாறு ஒரு அகராதிச்சொல்லிருந்து இலக்கணவிகுதிகள் இணைந்து விரிவடைகிற ஒவ்வொன்றும் ஒவ்வொரு சொல்வகை.

ஆகவே, தரவகத்தில் முதலில் சொல்-வில்லைகளைப் பார்க்கிறோம். பின்னர், அவற்றில் மறுபகர்ப்புகளைத் தவிர்த்து வகைக்கு ஒன்று என்று சொல்வகைகளைக் கண்டறிகிறோம். அதற்கு அடுத்த படி.... கிடைக்கப்பெற்ற சொல்வகைகளைச் சொல்பகுப்பி அல்லது உருபன்பகுப்பி (morphological parser) மென்பொருள்கொண்டு ஆய்வுசெய்து, அகராதிச்சொற்களைக் கண்டறியவேண்டும். இதை ஆங்கிலத்தில் Lemma என்று அழைப்பார்கள். Token - Type - Lemma ... சொல்-வில்லைகளின் எண்ணிக்கையோடு ஒப்பிடும்போது, சொல்வகைகளின் எண்ணிக்கை குறைந்து காணப்படுவதுபோல, சொல்வகைகளோடு ஒப்பிடும்போது அகராதிச்சொல் அல்லது அடிச்சொல் அல்லது வேர்ச்சொல் எண்ணிக்கை மிகக் குறைவாகவே இருக்கும்.

இவ்விடத்தில் தமிழுக்கும் ஆங்கிலத்திற்கும் இடையில் உள்ள ஒரு அடிப்படையான வேறுபாட்டைக் கவனத்தில் கொள்ளவேண்டும். ஆங்கிலத்தில் பெரும்பாலும் இலக்கணச்சொற்கள் தனித்தே பயின்றுவருகின்றன. ஆங்கிலப் பெயர்ச்சொல்லோடு பன்மைவிகுதி மட்டுமே இணையும். "boy" "boys".மேலும் விகுதி சேர்ப்பது என்றால் ஒரு வாய்ப்பு .. உடைமைப்பொருளை வெளிப்படுத்தும் 's என்ற விகுதியைச் சேர்க்கலாம். இதன்மூலம் "boy" "boy's" "boys" "boys'(s) . மொத்தத்தில் நான்கு சொல்வகைதான். இதுபோன்றே வினைச்சொல்லும்! வினைச்சொல்லோடு கால விகுதியோ அல்லது வினையெச்ச விகுதியோ மட்டுமே இணையும். "look" "looks" "looked" "looking" / "give" "gives" "gave" "given" "giving" 'to give" . .ஆங்கிலத்தில் ஒரு வினையின் வினைத்திரிபு வடிவங்களின் உயர்ந்த அளவு எண்ணிக்கை ஆறுமட்டுமே. வினையோடு சேரும் பிற இலக்கணக்கூறுகள் எல்லாம் தனிச் சொற்களாகவே வருகின்றன. "is coming" "has been coming" "has given" "has been given" .

இப்போது தமிழுக்கு வரலாம். தமிழ்த் தரவகத்தில் சொல்-வில்லைகள் - சொல்வகைகள் ஆய்வுக்குப்பின்னர், தகுந்த மென்பொருள்கொண்டு, சொல்வகைகளிலிருந்து அடிச்சொற்களையும் இலக்கணவிகுதிகளையும் பிரித்தெடுக்கவேண்டும். இலக்கணவிகுதிகள் எல்லாம் தனித்துப் பயின்றுவராத விகுதிகளே. இப்படிப்பட்ட ஒரு ஆய்வை நாம் செய்துமுடித்துவிட்டால்..... (1) ஒரு வினைச்சொல்லை உள்ளீடு செய்து, அதன் பல்வேறு வடிவங்களைக் காட்டுக என்று தரவக மென்பொருளைக் கேட்டால், அதனுடைய ஆயிரக்கணக்கான வடிவங்களையும் (அனைத்து விவரங்களோடு) எடுத்துக்கொடுத்துவிடும். அதுபோன்று, (2) ஒரு வினைச்சொல்லின் ஒரு குறிப்பிட்ட திரிபைக் கேட்டால் - எடுத்துக்காட்டாக, 'வா' என்பதின் வினையாலணையும்பெயர் வடிவங்களைக் கேட்டால், ' வந்தவன், வந்தவள், வந்தவர், வந்தவர்கள், வந்தது, வந்தவை' என்ற ஆறு வடிவங்களையும் அவை எங்கெங்கு பயின்றுவருகின்றன என்ற விவரங்களோடு கொடுத்துவிடும். (3) ஒரு இலக்கண வடிவத்தின் அடிப்படையில் சொற்களைக் கேட்டால்- எடுத்துக்காட்டாக, தரவகத்தில் இடம்பெற்றுள்ள அனைத்து வினைமுற்றுகளையும் எடுத்துக்கொடு அல்லது தொழிற்பெயர்களையும் எடுத்துக்கொடு என்று கேட்டால், அது கொடுத்துவிடும். (4) ஒரு குறிப்பிட்ட இலக்கணவிகுதி பயின்றுவருகிற சொற்களை எடுத்துக்கொடு என்று கேட்டால் - எடுத்துக்காட்டாக, இரண்டாம் வேற்றுமை உருபாகிய 'ஐ' இணைந்துவரும் சொற்களை எல்லாம் காட்டுக என்று கேட்டால், அச்சொற்கள் எல்லாம் காட்டப்படும்.

முன்னர் சொல்-வில்லைக்கும் சொல்வகைக்கும் இடையில் உள்ள விகிதத்தைக் கணக்கிட்டதுபோல, இப்போது சொல்வகைகளுக்கும் அடிச்சொற்களுக்கும் இடையில் உள்ள விகிதத்தையும் கணக்கிடலாம்.

தற்போது நாங்கள் உருவாக்கியுள்ள எழுத்துத்தமிழ் தரவக மென்பொருளில் இவையெல்லாம் இடம்பெற்றுள்ளன என்பதை மகிழ்வுடன் தெரிவித்துக்கொள்கிறேன்.

உரையில் ஏதாவது தவறு இருந்தால், தயவுசெய்து அவ்வப்போது சுட்டிக்காட்டி உதவும்படி அன்புடன் வேண்டிக்கொள்கிறேன்.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics (8)

---------------------------------------------------------------------------------------------------------------------

முந்தைய ஏழு உரைகளில் ஒரு குறிப்பிட்ட மொழியின் தரவகத்தை எவ்வாறு உருவாக்குவது என்பதையும் பின்னர் எங்கிருந்து ஆய்வைத் தொடங்குவது என்பதுபற்றியும் பார்த்தோம். தரவகத்தை உருவாக்குவது நாம்தான். தரவகத்தைக் குறிப்பிட்ட நோக்கங்களுக்காக உருவாக்குகிறோம்.

தரவகம் உருவாக்கப்பட்டபிறகு, அதில் இடம்பெற்றுள்ள மாதிரிகளை ஆய்வுசெய்வதற்குப் பலவகைத் தன்னியக்கு நிரல்களை - automatic programs- (அமெரிக்காவைச் சேர்ந்த நண்பர் திரு. இராமசாமி செல்வராசு அவர்கள் தன்னியக்கு நிரல்கள் என்ற தொடரை எனக்கு அறிமுகப்படுத்தியதற்கு நன்றி.) உருவாக்கிப் பயன்படுத்துகிறோம். ஏன் இந்த நிரல்களை முதலில் உருவாக்கி, பின்னர் அவற்றைப் பயன்படுத்தவேண்டும்? நாமே நமது மாந்த உழைப்பின்மூலம் இப்பணியை மேற்கொள்ள வேண்டியதுதானே? ஒரு காரணம், மின்தரவகமானது (electronic corpus) பல இலட்சம் அல்லது பல கோடிகள் சொற்களைக்கொண்டதாக இருக்கும். அவ்வாறு அது அமையும்போதுதான் குறிப்பிட்ட மொழியின் அனைத்துக் கூறுகளையும் பண்புகளையும் முழுமையாக ஆய்ந்தறியமுடியும். இப்படிப்பட்ட பெருந்தரவகத்தின் ஒவ்வொரு சொல்லையும் தொடரையும் நாமே ஆராயத்தொடங்கினால், பணி முழுமையடைய நீண்ட காலம் பிடிக்கும். மாந்த உழைப்பும் நேரமும் அதிகம் தேவைப்படும். ஆய்வு மேற்கொள்பவரின் வேலைப்பளுவினால் ஏற்படும் தளர்ச்சி அல்லது சோர்வும் ஆய்வுமுடிவுகளைப் பாதிக்கும். இவற்றையெல்லாம் தவிர்த்து, மிக விரைவாகவும் எத்தனை தடவைகள் மீண்டும் மீண்டும் செய்யச்சொன்னாலும் செய்யக்கூடியதுமான கணினித் தொழில்நுட்பத்தை இன்று நாம் பெற்றுள்ளோம். ஒரு தடவை நமது மொழி அறிவைக்கொண்டு, கணினி நிரல்களை நாம் உருவாக்கிவிட்டால், பிறகு நமக்குக் கவலை இல்லை. ஆனால் நிரலாக்கத்தின்போது நாம் தவறாக மொழிவிதிகளை (linguistic or grammatical rules) அதற்குக் கொடுத்துவிட்டாலோ, அல்லது நிரலாக்கத் தர்க்கம் (logic or algorithm) முறையாக அமையவில்லை என்றாலோதான் கணினியும் தவறு செய்யும். உண்மையில் இது கணினியின் தவறு இல்லை. நமது தவறுதான்.

இங்கு நாம் ஒரு உண்மையைத் தெளிவாகத் தெரிந்துகொள்ளவேண்டும். தரவகத்தை உருவாக்கும்போதும் - அதாவது மாதிரிகளைத் தேர்ந்தெடுத்து தரவகத்தின் பகுதிகளாக அமைக்கும்போதும் - குறிப்பிட்ட மொழியின் அனைத்து இலக்கணக் கூறுகளையும் தெளிவாகத் தெரிந்துகொண்டு செயல்படவேண்டும். மாதிரிகள் பிழையின்றி இருந்தால்தான் கணினியின் தரவக ஆய்வுகளும் பிழையின்றி இருக்கும்.

அதுபோல, குறிப்பிட்ட மொழியின் தரவகத்தை ஆய்வுசெய்யயும் தன்னியக்கு நிரல்களை உருவாக்கும்போதும் சரியான , தெளிவான இலக்கண அறிவை நிரல்களுக்கு அளிக்கவேண்டும். நிரலாளர்களுக்குத் தேவையான மொழி விதிகளைக் குறிப்பிட்ட மொழியின் இலக்கண, மொழியியல் அறிஞர்கள் அளித்தால்தான், அவர்களும் சரியான நிரல்களை உருவாக்கமுடியும். மாந்த மூளைக்கு உருவாக்கப்பட்ட குறிப்பிட்ட மொழியின் இலக்கணங்களை - தொல்காப்பியம், நன்னூல் போன்றவற்றை- கணினிக்கேற்றவகையில் மாற்றியமைக்க நிரலாளர்களுக்கு உதவும்வகையில் இலக்கண, மொழியியல் அறிஞர்கள் குறிப்பிட்ட மொழியின் இலக்கணத்தை விளக்கவேண்டும்; அளிக்கவேண்டும். இதற்கான ஒரு தனி அறிவியல் துறையே கணினிமொழியியல் என்பதை இங்குக் கூற விரும்புகிறேன்.

தமிழுக்கான தரவகத்தை உருவாக்குபவர்களுக்கு , ஒரு மாதிரிப் பனுவலில் 'அவனைப்பற்றி '("about him") என்ற தொடரானது 'அவனைப் பற்றி' ("having hold him") என்று தவறாக அமைந்திருந்தால். அதைத் திருத்தி அமைக்கத் தெரிந்திருக்கவேண்டும் அல்லவா? 'வர வேண்டும் ' என்று எழுதுவது தவறு;முதன்மை வினைக்கும் துணைவினைக்கும் இடையில் இடைவெளி இருக்கக்- கூடாது என்பதால், 'வரவேண்டும் ' என்றுதான் எழுதவேண்டும் என்பது தெரிந்திருக்கவேண்டும் அல்லவா? 'படித்தப் பையன்' என்று பெயரெச்சத்திற்குப் பின்னர் வல்லொற்று மிகுந்து இருந்தால், அது தவறு; 'படித்த பையன்' என்றுதான் அமைந்திருக்கவேண்டும் என்பது தெரிந்திருக்கவேண்டும் அல்லவா?

அதுபோன்று, தரவகத்தை ஆய்வுசெய்யும் தன்னியக்கு நிரல்களை உருவாக்கும் மென்பொருள் பொறிஞர்களுக்கு, தமிழ் இலக்கணத்தைச் சரியாகப் புரிந்துகொண்டு மொழி ஆய்வாளர்கள் தெளிவுபடுத்தவில்லையென்றால், நிரல்களும் தடுமாறும். எடுத்துக்காட்டாக, 'படித்த' என்பது பெயரெச்சம்; 'படிக்க' என்பது வினையெச்சம். இரண்டுமே அகரத்தில் (-அ) முடிகின்றன. இரண்டுக்குமே அடிச்சொல் 'படி'. அப்படியென்றால், இவ்விரண்டையும் எவ்வாறு கணினி நிரல் கையாளும்? 'படித்த' என்பதை 'படி+த்த்+அ' என்று பிரிக்கவேண்டும். இங்கு 'த்த்' என்பது இறந்தகால விகுதி. 'படிக்க' என்பதை 'படி+க்க+அ' என்று பிரிக்கவேண்டும். இங்கு 'க்க்' என்பது காலவிகுதி இல்லை. ஒரு நிரப்பான்- stem formative- . அதாவது வினையடியை விகுதி ஏற்பதற்குத் தயார்படுத்தும் ஒன்று) . இரண்டிலுமே இறுதியில் திணை-எண்-பால் விகுதி வரவில்லை. அதனால் வினைமுற்று இல்லை. இது இரண்டுக்கும் இடையில் உள்ள ஒரு ஒற்றுமை. அதுபோன்று இரண்டிலுமே அகர இறுதி வருகிறது . ஆனால் காலவிகுதியை அடுத்து வருகிற அகர இறுதிதான் பெயரெச்ச விகுதி; கால விகுதி வராமல் அகர இறுதி வந்தால் அது வினையெச்ச விகுதியே. ஆகவே, வெறும் அகர இறுதியை வைத்துக்கொண்டு, 'படித்த' என்பதைப் பெயரெச்சம் என்றோ, அல்லது' படிக்க' என்பதை வினையெச்சம் என்றோ தன்னியக்கு நிரல் கொள்ளக்கூடாது. ஒரு சொல்லையோ, தொடரையோ பகுத்து ஆய்வு மேற்கொள்ளும் நிரல்களை உருவாக்கும் நிரலாளர்களுக்கு மிகத் தெளிவாக இலக்கணவிதிகளை அவர்களுக்குப் புரியும் வகையில் எடுத்துச்சொல்லவேண்டும். இயன்றவரை கணித வாய்பாடாக மாற்றிக்கொடுத்தால் நல்லது. பெயர் ( +வேற்றுமை)( - காலம்) ; வினை ( -வேற்றுமை +காலம்) என்று நிரலாளர்களுக்கு தமிழ் ஆய்வாளர்கள் எடுத்துச்சொன்னால், அவர்களும் தெளிவாகப் புரிந்துகொள்வார்கள். அவ்வாறு இல்லாமல், ' வினையெனப்படுவது வேற்றுமை கொள்ளாது, நினையுங்காலைக் காலமொடு தோன்றும்' என்று மனப்பாடம் செய்த இலக்கண நூற்பாவைக் கூறினால், அவர்கள் சற்றுத் தடுமாறுவார்கள்!

ஆகவே, குறிப்பிட்ட மொழியின் தரவக மொழியியல் ஆய்வில் ஈடுபடுகிறவர்கள் அந்த மொழியின் இலக்கணத்தைத் தெளிவாகத் தெரிந்திருக்கவேண்டும் . தரவகத்தை உருவாக்குவதற்கும் இலக்கண அறிவு தேவை; உருவாக்கப்பட்ட தரவகத்தை ஆய்வுசெய்வதற்கான தன்னியக்க நிரல்களை உருவாக்குவதற்கும் இலக்கண அறிவு தேவை.

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (9)

------------------------------------------------------------------------------------------------------------

இன்றைய எழுத்துத் தமிழுக்கான தரவகத்தை முந்தைய உரைகளில் கூறிய அடிப்படைகளில் உருவாக்கிவிட்டோம் என்று கொள்வோம்.

(1) அதில் பத்து இலட்சம் சொல்-வில்லைகள் (tokens) இருப்பதாகக் கொள்வோம்.

(2) அதன்பிறகு தரவகத்தில் இடம்பெற்றுள்ள சொல்-வில்லைகளின் மறுபகர்ப்பை (repetitions) அகற்றி, தரவகத்தில் இடம்பெற்றுள்ள சொல்வகைகளைக் (types) கண்டறிகிறோம். எடுத்துக்காட்டாக, 'படித்தான்', 'சொல்லப்பட்டது', 'அவனைப்பற்றி' 'வேகமான', ' 'வேகமாக' 'படித்து', 'ஓடுகிற'' என்று அத்தனைச் சொல்வகைகளும் கிடைத்துவிடும்.

(3) பின்னர் அந்த சொல்வகைகளைச் சொல்பகுப்பி அல்லது உருபன் பகுப்பிக்கு (morphological parser) அனுப்பி, பகுதி, விகுதி அல்லது அடிச்சொல், விகுதிகள் என்று ஆய்வுசெய்கிறோம். அதாவது, 'படி+த்த்+ஆன்' ,'சொல்+அ+படு+ட்+அது' , 'அவன்+ஐ+பற்றி', 'வேகம்+ஆன', 'வேகம்+ஆக' 'படி+த்து', 'ஓடு+கிறு+அ' என்று சொல்பகுப்பியானது வெளியீடுகளைத் தரும்.

(4) சொல்வகையின் ஒவ்வொரு பகுதிக்கும், விகுதிக்கும் அவற்றின் இலக்கண வகைப்பாடுகளும் (grammatical tags/ linguistic annotations) ) பெறப்படும். அதாவது, 'படி' வினை; 'த்த்' என்பது இறந்தகால விகுதி' 'ஆன்' என்பது ஆண்பால், ஒருமை- படர்க்கை' என்று வெளியீடு கிடைக்கும்.

(5) ஒரு சொல்வகையின் பகுப்பு வெளியீடே அதனுடைய ஒட்டுமொத்த இலக்கணக்குறிப்பை (Parts-of-Speech - இலக்கணவகைப்பாட்டைத் - தீர்மானிக்கிறது. 'படி' என்ற வினையுடன் காலவிகுதியும் திணை-எண்-பால் விகுதியும் இணைந்து வந்தால் அது வினைமுற்று; திணை-எண்-பால் விகுதி இல்லாமல் 'த்து' என்று முடிந்திருந்தால், அது செய்துவாய்பாட்டு வினையெச்சம்; திணை-எண்-பால் விகுதி இல்லாமல், கால விகுதியும் 'அ' என்ற பெயரெச்ச விகுதியும் வந்திருந்தால், அது பெயரெச்சம்; திணை-எண்-பால் விகுதியும் கால விகுதியும் இரண்டுமே வராமல், 'அ' என்ற வினையெச்சவிகுதி மட்டும் வந்திருந்தால் அது செயவாய்பாட்டு வினையெச்சம்; குறிப்பிட்ட சொல்வகையின் இலக்கணக்குறிப்பும் கிடைத்துவிடும்.

(6) மேற்கூறிய ஆய்வகளின் பயனாக, தற்போது தரவகத்தில் ஒவ்வொரு சொல்-வில்லையும் அதனுடைய இலக்கணக்குறிப்புடன் காட்டப்படும்.

(7) மேலும் தரவகத்தில் இடம்பெற்றுள்ள அனைத்துச்சொல்வகைகளின் அடிச்சொற்கள்(roots or lexicons) அவற்றின் இலக்கணவகைப்பாடுகளுடன்- அதாதவது பெயரா, வினையா, பெயரடையா, வினையடையா என்ற விவரங்களோடு காட்டப்படும். ஒரு அகராதி உருவாக்கத்திற்கு (lexicography) இந்த விவரங்கள் பெரிதும் பயன்படும். இதை தரவக அகராதியியல் ( Corpus Lexicography) .

மேற்கூறிய ஆய்வுகளாலும் அவற்றால் கிடைக்கப்பெறுகிற விவரங்களாலும் தரவகத்தில் இடம்பெற்றுள்ள சொல்-வில்லைகள்,சொல்வகைகள், அடிச்சொற்கள், விகுதிகள் ஆகிய அனைத்தையும் நொடியில் தேடிக் கண்டறியமுடியும். 'படித்தான்' என்ற சொல்வகை தரவகத்தில் எங்கெங்கெல்லாம் இடம்பெறுகிறது என்பதையோ அல்லது 'படி' என்ற வினைச்சொல் எங்கெங்கெல்லாம் இடம்பெறுகிறது என்பதையோ அல்லது 'த்த்' என்ற இறந்தகால விகுதி எங்கெங்கெல்லாம் வருகிறது என்பதையோ நொடியில் பெறமுடியும். தரவகத்தில் இடம்பெற்றுள்ள வினைமுற்றுகளைக் காட்டு, பெயரெச்சங்களைக் காட்டு என்று இலக்கணக்குறிப்பை அடிப்படையாகக்கொண்டு வினா கேட்டாலும் , விடை கிடைக்கும். அதுமட்டுமல்லாமல், அவை எந்தக் கோப்பில், எந்தத் தளத்தில், எந்த நடையில் வருகிறது போன்ற விவரங்களுடன் (metadata) பெறமுடியும். அவற்றைப்பற்றிய புள்ளியியல் விவரங்களும் கிடைக்கும்.

மேற்கூறிய தரவக ஆய்வினால் ஒரு குறிப்பிட்ட மொழியின் குறிப்பிட்ட காலகட்ட வளர்ச்சிநிலையை - எழுத்து, சொல் இரண்டையும்பற்றிய நிலையை- மிகச்சரியாகக் கணிக்கமுடியும். ( தொடரியல் ஆய்வு மேற்கொண்டபிறகு, தொடரியல் வளர்ச்சியைநிலையையும் காணமுடியும். அதைப் பின்னர் பார்க்கலாம்.) இதை மொழியியலில் Syn-chronic study என்று அழைப்பார்கள். ஒரு மொழியின் வரலாற்றுவளர்ச்சியைக் கண்டறிய , அம்மொழியின் ஒவ்வொரு காலகட்ட வளர்ச்சியையும் ஆராய்ந்தால். அதனடிப்படையில் ஒவ்வொரு காலகட்டத்திலும் அம்மொழியில் நிலவிய சொற்கள் எவை, முந்தைய காலகட்டத்தில் நிலவிய எந்தச் சொற்கள் மறைந்துவிட்டன, சொல் அமைப்பு, தொடரமைப்பு மாற்றங்கள் என்ன என்பதையெல்லாம் கண்டறியமுடியும். இதை மொழியியலில் Diachronic study என்று கூறுவார்கள். தொன்மையான தமிழ்மொழி எவ்வாறெல்லாம் தனது.,வரலாற்றில் மாறியும் வளர்ச்சியும் அடைந்து வந்துள்ளது என்பதைக் கண்டறியலாம். அப்போதுதான் தமிழ்மொழியின் வளர்ச்சி வரலாற்றையும் வளர்ச்சி விதிகளையும் திட்டவட்டமாகச் சொல்லமுடியும். தற்போது நமக்குக் கிடைக்கிற ஒரே நூல், பேராசிரியர் தெ.பொ. மீ. அவர்களின் 'தமிழ்மொழி வரலாறு' என்ற ஒரு நூல்தான் ( அவர் 1965-வாக்கில் அமெரிக்கா இந்தியானா பல்கலைக்கழகத்தில் ஆற்றிய உரை). சங்கத்தமிழ்பற்றி மட்டும் பேரா. அகத்தியலிங்கம் அவர்கள் ஆய்வுசெய்து நான்கு தொகுதிகளை வெளியிட்டிருக்கிறார். மற்றபடி தமிழ் வரலாற்று வளர்ச்சியை முழுமையாக - தகுந்த ஆய்வு ஆதாரங்களுடன் - அறிந்துகொள்ள நூல் எதுவும் இல்லை என நினைக்கிறேன். இருந்தால் அன்பர்கள் அதைக் கூறி எனக்கு உதவலாம். இன்றைய தமிழின் முழுமையான இலக்கணம்பற்றிய ஒரு நூலோ (பேரா. பொற்கோ அவர்கள் 'இன்றைய தமிழ் இலக்கணம்' பற்றி ஒரு நூலை எழுதியுள்ளார் என்பது குறிப்பிடத்தக்கது. தரவகமொழியியல் என்ற ஒரு கணினிவழி மொழி ஆய்வு வளர்வதற்கு முன்னரே அவர் இன்றைய தமிழ்பற்றிய விவரங்களைத் தானே இதழ்கள், நூல்கள் வழியே திரட்டி ஆய்வுசெய்து எழுதியுள்ளார்)

அல்லது தமிழ்மொழியின் வரலாற்று வளர்ச்சியை- வரலாற்று இலக்கணத்தை - தகுந்த ஆய்வு விவரங்களோடு கூறுகிற ஒரு நூலோ - இன்று இல்லை என்பதே உண்மை!

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics) (10)

-----------------------------------------------------------------------------------------------------------------

முந்தைய ஒன்பது உரைகளில் தரவக உருவாக்கம், சொல்-வில்லை, சொல்வகை, அடிச்சொல், சொல் பகுப்பி, இலக்கணக்குறிப்பு அல்லது மொழியியல் விவரங்கள், இலக்கணவிகுதிகள் ஆகியவற்றைப்பற்றி விரிவாக அல்ல, சுருக்கமாகப் பார்த்தோம். அடுத்து, தரவக ஆய்வில் மிக முக்கியமான ஒன்றாக அமைகிற சொற்சூழலடைவி (Concordancer) பற்றி இன்று பார்க்கலாம்.

சொற்சூழடைவி என்பது தரவகத்தில் ஒரு குறிப்பிட்ட சொல் பயின்றுவரும் மொழிச்சூழலையும் (முந்தைய, பிந்தைய சொற்சூழல்) , அத்தொடர்களின் மொழிசாரா மற்ற விவரங்களையும் (metadata) எடுத்துக்காட்டும்.

நடைமுறைக் கருத்தாடலில் பயன்படுத்தப்படுகிற ஒவ்வொரு சொல்லும் தனக்கு முந்தைய, பிந்தைய சொற்களோடு - மொழிச்சூழலோடு- நெருங்கிய தொடர்பு உடையது. இதை ஆங்கிலத்தில் Co-text என்று அழைக்கிறார்கள். அதுபோன்று ஒவ்வொரு சொல்லும் தான் இடம்பெற்றுள்ள கருத்தாடல் நடைபெறும் புறச் சூழலுடன் ( Context) தொடர்புடையது. இதுபற்றி விரிவாகத் தரவகமொழியியலின் தந்தை என அழைக்கப்படும் இங்கிலாந்து மொழியியலறிஞர் சிங்க்லயர் (Sinclair) தனது உரைகளில் கூறியுள்ளார்.

ஒவ்வொரு சொல்லும் தான் பயன்படுத்தப்படுகிற பனுவலில் பொதிந்துள்ளது (" words are embedded in the text ") என்றும் கூறுவார்கள். எனவேதான் ஒரு தொடரின் பொருண்மைபற்றி விளக்குகிற ஹாலிடே ( Father of Systemic Grammar ; Student of J.R. Firth) , ஒரு தொடரின் பொருண்மை என்பது அத்தொடரில் அப்படியே இல்லை; ( "Meaning is not residing in the sentence; it is interpreted") . அதாவது தொடரை யாரிடம் முன்வைக்கிறோமோ, அவர் அதற்குக் கொள்ளும் பொருண்மையைப் பொறுத்து உள்ளது. எனவேதான், சில வேளைகளில் நாம் ஒன்று நினைத்துச் சொல்ல, மற்றவர் அதை அதற்கு வேறு பொருளை எடுத்துக்கொள்கிற சூழலும் ஏற்படுகிறது. அப்போது நாம் என்ன சொல்கிறோம்? 'நான் கூற வந்தது வேறு. நீங்கள் அதைப் புரிந்துகொண்டது வேறு' என்று கூறுகிறோம். அல்லது ''எந்தச் சூழலில், எதற்காகக் கூறினேன் என்பது புரியாமல், நீங்கள் வேறுமாதிரி புரிந்துகொண்டீர்களே'' என்று கூறி வருத்தப்படுகிறோம்.

எனவே நடைமுறையில் நமது பல்வேறு கருத்தாடல்களில் பயன்படுத்துகிற சொற்களை அவற்றின் முந்தைய, பிந்தைய மொழிச்சூழலுடனும் , மொழிசாராத புறச்சூழலுடனும் இணைத்துப் பார்க்கும்போதுதான் அச்சொற்கள் குறிப்பிட்ட இடத்தில் கொள்கிற பொருண்மையைப் புரிந்துகொள்ளமுடியும்.இதற்கு மிகவும் பயன்படுவதே தரவக ஆய்வுக் கருவிகளில் மிக முக்கியமாக அமைகிற சொற்சூழலடைவிக் கருவியாகும்.

பொதுவாக அகராதிகளில் ஒன்றைப் பார்க்கலாம். ஒரு சொல்லின் பொருண்மையை அறிந்துகொள்ள அகராதியைப் புரட்டினால், அச்சொல்லுக்கு ஒன்றுக்கு மேற்பட்ட பொருள்கள் கொடுக்கப்பட்டிருக்கும். எடுத்துக்காட்டாக, 'அடி' என்ற ஒரு சொல்லுக்குக் கிரியா அகராதியைப் புரட்டினால், அது பெயர்ச்சொல்லாக அமையும்போது வெளிப்படுத்தும் பொருள்கள், வினைச்சொல்லாக அமையும்போது வெளிப்படுத்தும் பொருள்கள், துணைவினையாக அமையும்போது வெளிப்படுத்தும் பொருள்கள் என்று ஐம்பதுக்கும் மேற்பட்ட பொருள்கள் கொடுக்கப்பட்டிருக்கும். அவற்றில் ஒன்றை நாம் எவ்வாறு தேர்ந்தெடுக்கிறோம்? நாம் புரிந்துகொள்ள விரும்புகிற 'அடி' வருகிற குறிப்பிட்ட தொடர், பயன்படுத்தப்படுகின்ற புறச்சூழல் ஆகியவற்றின் அடிப்படையில்தான் தேர்ந்தெடுக்கிறோம். அதற்கு நமது மாந்தமூளையினுள்ளே இருக்கிற உலகறிவு (pragmatic knowledge) மிகவும் பயன்படுகிறது. ஆனால் கணினிக்கு அந்த அறிவு கிடையாது. தனக்கு முந்தைய பிந்தைய மொழிச்சூழல்களையும் குறிப்பிட்ட சொல் பயின்றுவருகிற கோப்பின் பிற விவரங்களையும் வைத்துக்கொண்டுதான் புரிந்துகொள்ளமுடியும். இயந்திரமொழிபெயர்ப்பு போன்ற உயர்நிலை மொழிக் கருவிகளுக்கு இது மிகவும் பயன்படும். அகராதி எவ்வாறு அத்தனை பொருள்களையும் பெற்று வரிசைப்படுத்தியது? கள ஆய்வில் கிடைக்கப்பெற்ற தரவகத்தின் அடிப்படையில்தான் என்பதில் ஐயமில்லை.

தரவகமானது எந்த அளவு விரிவாக உருவாக்கப்படுகிறதோ, அந்த அளவுக்குக் குறிப்பிட்ட சொற்களின் பொருண்மையைக் கண்டறியமுடியும். இதற்குப் பயன்படுவதுதான் சொற்சூழலடைவி. சொற்சூழலடைவியில் ஒரு குறிப்பிட்ட சொல்லை உள்ளீடு செய்தவுடன், அந்தச் சொல்லுக்கு முன்னால் சில சொற்கள், பின்னால் சில சொற்களுடன் அச்சொல் பயின்றுவரும் அத்தனை தொடர்களையும் நமக்குக் காட்டும். இதனால் குறிப்பிட்ட சொல்லின் மொழிச்சூழலை நாம் தெரிந்துகொள்ளலாம். மேலும் அத்தொடர்கள் பயின்றுவருகிற தரவகக் கோப்புகளின் விவரங்களையும் - இலக்கியமா, அறிவியலா, தத்துவமா , நடை என்ன, எழுதியவர்களின் சமூக விவரங்கள் என்ன - நமக்கு எடுத்துக் காட்டும். 'விதி' என்பதில் தத்துவநூலில் வந்தால் ஒரு பொருள்; அறிவியலில் வந்தால் ஒரு பொருள்; சட்டநூல்களில் வந்தால் ஒரு பொருள்.

குறிப்பிட்ட சொல்லின் பொருண்மைக்கு மட்டுமல்லாமல், அச்சொல்லின் இலக்கணக்குறிப்பில - இலக்கண வகைப்பாட்டில் - நமக்கு ஐயம் இருந்தாலும், அதையும் தெளிவுபடுத்திக்கொள்ள இந்தச் சொற்சூழலடைவி பயன்படும். தரவகத்தில் இடம்பெறும் அத்தனை சொற்களுக்கும் சொல்பகுப்பி மூலம் இலக்கணக்குறிப்பைக் கொடுக்க, சொற்சூழலடைவி மிகவும் பயன்படும். 'வந்தது' என்ற சொல்லைச் சொல்பகுப்பியில் உள்ளீடுசெய்தவுடன், மூன்று வேறுபட்ட இலக்கணக்குறிப்புகளை அது தரும். வினைமுற்று, வினையாலணையும் பெயர், தொழிற்பெயர் என்ற மூன்றும் தரப்படும். ஆனால் குறிப்பிட்ட தொடரில் அக்குறிப்பிட்ட சொல்லுக்கு ஒரு இலக்கணக்குறிப்புதானே இருக்கமுடியும்? அதை எவ்வாறு முடிவுசெய்வது? சொற்சூழலடைவிதான் அதற்குப் பயன்படுகிறது. 'பூனை வந்தது' என்பதில் வினைமுற்று; 'வந்தது எது' என்பதில் வினையாலணையும் பெயர்; 'வந்தது எனக்குப் பிடிக்கவில்லை' என்பதில் தொழிற்பெயர். முந்தைய உரைகளில் நாம் பார்த்ததுபோல, சொல்-வில்லைகளின் மறுபகர்ப்பை அகற்றி, சொல்வகைகளைத் தேர்ந்தெடுப்பதற்குச் சொற்சூழலடைவி மிகவும் பயன்படும். எனவேதான் தரவக ஆய்வுக் கருவிகளில் சொற்சூழலடைவி மிக முக்கியமான பங்களிப்பைச் செய்கிறது ; முக்கியத்துவத்தையும் பெறுகிறது.

Read more »

ந.தெய்வ சுந்தரம்

என்னைப்பற்றி

Language Technology

Recent Posts

வெள்ளி, 18 செப்டம்பர், 2020

தமிழும் தரவக மொழியியலும் (Tamil and Corpus Linguistics)

Popular Posts

Archives