வியாழன், 30 மார்ச், 2023

செயற்கை அறிவுத்திறன் (Artificial Intelligence) - AI) மென்பொருள்களும் மொழியியல் (Linguistics) அடிப்படையான தமிழ்மொழி ஆய்வுகளும்!

செயற்கை அறிவுத்திறன் (Artificial Intelligence) - AI) மென்பொருள்களும் மொழியியல் (Linguistics) அடிப்படையான தமிழ்மொழி ஆய்வுகளும்!
--------------------------------------------------------------------------
ChatGPT - இல் ஆர்வமுள்ளவர்கள் இன்றைய "The Hindu" இன்றைய நாளிதழில் பக்கம் 12-இல் வெளிவந்துள்ள "GPT-4- a shift from "what it can do' to 'what it augurs' என்ற தலையங்கப் பக்கத்தில் உள்ள கட்டுரையைப் படிக்கலாம்.
இக்கட்டுரையில் செயற்கை அறிவுத்திறன்பற்றிய ஒரு நல்ல விளக்கம் அளிக்கப்பட்டுள்ளது.
மொழியியல் மாணவர் என்ற முறையில் இந்தக் கட்டுரையின் இறுதிப்பகுதி மிகவும் முக்கியமானது என்று கருதுகிறேன்.
நான் ஏற்கனவே இதுபற்றி முகநூல் பக்கத்தில் எழுதியுள்ளேன். இந்தவகை மென்பொருள்களுக்கு அல்லது எந்தவொரு செயற்கை அறிவுத்திறன் மென்பொருளுக்கும் அடிப்படையானது . . .
நாம் அவற்றின்முன் வைக்கிற நமது மொழித் தொடர்களை அவை புரிந்துகொள்ளவேண்டும் (understanding) . அதுபோன்று நமது வினாக்கள் அல்லது ஐயங்களுக்குத் தேவையான விவரங்களை அந்த மென்பொருள்கள் திரட்டியவுடன் . . . அவற்றிற்குரிய நமது மொழிக்குரிய தொடர்களை (generation or production) உருவாக்கி அளிக்க வேண்டும். இதில் வெற்றி பெறுவதற்கு மிக அடிப்படையான ஒன்று . . . குறிப்பிட்ட மொழியின் அமைப்பை - அது எவ்வாறு கருத்துக்களை வெளிப்படுத்துகிறது - அதற்குரிய சொற்களஞ்சியம், இலக்கணம் ஆகியவற்றை எவ்வாறு பயன்படுத்துகிறது என்பதாகும்.
இதைத்தான் மொழியியலில் முறைசார் மொழிவடிவம் (Linguistic Formalism) என்று அழைக்கிறார்கள், மொழியியல் துறையில் பல வேறுபட்ட முறைசார் வடிவங்கள் முன்வைக்கப்பட்டுத் தொடர்ந்து ஆய்வுக்கு உட்படுத்தப்பட்டுவருகின்றன. மனித மூளைக்குரிய இந்த மொழித்திறனைப் புரிந்துகொள்வதே மொழியியல்துறையின் முதன்மையான ஆய்வாக இருக்கிறது.
அடுத்து, இந்த மொழித்திறனை எவ்வாறு கணினிக்கு அளிப்பது என்பதாகும். இத்துறையே இன்று கணினிமொழியியல் (Computational Linguistics) என்று அழைக்கப்படுகிறது.
கணினியின் திறனும் (Computing Power) இணையமும் (Internet) இன்று மிகவும் வியக்கத்தக்க அளவில் வளர்ந்துள்ளன. அதனால் மனிதமொழிகளின் கோடியே கோடி மொழித்தொடர்களை ஒரு சில வினாடிகளில் திரட்டி . . கணினியில் சேமித்துவைக்கமுடிகிறது.
இதன் பயனாக, நான் முன்புகூறிய இயற்கை மொழிகளுக்கான மொழிசார் வடிவங்களை - மொழி இலக்கண ஆய்வு அடிப்படையில் இல்லாமல் - நிகழ்தகவுப் புள்ளியியல் (Probabilistic Statistics) அடிப்படையில் உருவாக்கலாம் என்னும் கருத்து இன்று வலுப்பெற்றுவருகிறது. ஒரு சொல்லின் அல்லது தொடரின் வருகையை (பொருண்மை அல்லது பொருளை இல்லை ) அதற்கு முந்தைய அல்லது அடுத்த சொல்லின் அல்லது தொடரின் வருகையின் ( Probability of Occurrences) அடிப்படையில் புரிந்துகொள்ளமுடியும் என்று கூறப்படுகிறது. குறிப்பிட்ட சொல்லின் தொடரின் பொருண்மையை - பொருளை - மனித மூளை புரிந்துகொண்டு செயல்படுவதுபோல . .. இந்த மென்பொருள்கள் செயல்படத் தேவை இல்லை!
எனவே, இன்று இயற்கைமொழிகள்பற்றிய ஆய்வு (Language Research) இரு வேறுபட்ட முனைகளில் நடைபெறுகிறது. ஒன்று . . . மொழியியல் அடிப்படை (Linguistics based) ; மற்றொன்று நிகழ்தகவுப் புள்ளியியல் அடிப்படை( Probability Statistics) !
இந்த இரண்டாவது முனைக்கு ஒரு சொல் அல்லது தொடரின் இலக்கணமோ அல்லது அகரமுதலி விவரங்களோ தேவை இல்லை. எடுத்துக்காட்டாக, ஒரு கிளிக்கு நாம் பேசுகிற பேச்சின் பொருள் தெரியாது. ஆனால் நாம் அதனிடம் சொல்கிற சில சொற்களை அப்படியே திருப்பிச் சொல்லும். நாம் சொல்கிற சொல்லின் பொருள் அதற்குத் தெரியாது.
இதை மேற்குறிப்பிட்ட "இந்து" கட்டுரையில் ஒரு மொழியியல் ஆய்வாளர் - Emily Bender - என்பவர் "Stochastic Parrot" ( நிகழ்தகவுப்புள்ளியியல் கிளி'' ) என்று அழைக்கிறார். ஏற்கனவே மொழியியல் அறிஞர் நோம் சாம்ஸ்கி வேறு ஒரு நோக்கில் இருந்து " High-tech Plagiarism என்று கூறியுள்ளார்.
இதுபற்றிய ஐயத்துக்கு விளக்கம் அளித்துள்ள மைக்ரோசாஃப்ட் குழுவினர், ''நாங்கள் நிகழதகவுப்புள்ளியியலைமட்டும் '' சார்ந்து இந்தப் பணியை மேற்கொள்ளவில்லை என்று கூறியுள்ளனர். நானும் அவ்வாறே கருதுகிறேன். மொழியியல் ஆய்வுகளையும் புள்ளியியலையும் இணைத்தே பயன்படுத்தியிருப்பார்கள் எனக் கருதுகிறேன். அதனால்தான் இந்த அளவு வெற்றி கிட்டியுள்ளது.
ஆங்கிலம், பிரஞ்சு, சீனம், ஜெர்மானியம்போன்ற மொழிகளில் மொழியியல் ஆய்வுகளுக்கு முக்கியத்துவம் கொடுக்கப்பட்டிருக்கிறது. எனவே அவற்றின் பயன்களையும் இந்தச் செயற்கை அறிவுத்திறன் மென்பொருள் உருவாக்கங்கள் பயன்படுத்திக்கொள்கின்றன.
ஆனால் தமிழ்மொழிக்கு ? இன்றைய தமிழுக்கான மொழியியல் ஆய்வு அந்த அளவுக்கு வளரவில்லை என்பதே உண்மை. ஏனென்றால் அதன் முக்கியத்துவம் தமிழ்நாட்டில் சரியாக உணரப்படவில்லை. மேலும் மொழியியல் என்பது ஏதோ தமிழுக்கு எதிரான ஒரு அறுவை மருத்துவமுறை என்ற கருத்தே மிக ஆழமாகத் திணிக்கப்பட்டிருக்கிறது. இதற்கு யார் பொறுப்பு என்பதுபற்றிய விவாதத்திற்கு நான் இங்கு வரவில்லை.
ஆனால் தமிழ்மொழிக்கான மொழியியல் நோக்கிலான ஆய்வுகளின் முக்கியத்துவத்தை . . . தமிழ் ஆய்வாளர்கள், பல்கலைக்கழகங்கள், அரசாங்கம் உணரவேண்டும்! மொழியியல் படிப்புக்கு உரிய முக்கியத்துவம் அளிக்கவேண்டும். மொழியியல் படித்தவர்களுக்கு வேலைவாய்ப்பை உருவாக்க வேண்டும். மொழியியல் ஆய்வுகளுக்குத் தேவையான நிதி உதவி அளிக்கவேண்டும்! தமிழகத்தில் உள்ள அனைத்துப் பல்கலைக்கழகங்கள், கல்லூரிகளில் உள்ள தமிழ்த்துறைகளில் மொழியியல் ஆசிரியர்கள் நியமிக்கப்படவேண்டும்.
இந்த ஒரு திசையில் தமிழ்மொழி ஆய்வு நடைபெற்றால்தான் . . . ChatGPT, Burd போன்ற செயற்கை அறிவுத்திறன் ஆய்வு வளர்ச்சியைத் தமிழுக்கும் பயன்படுத்தமுடியும்; தமிழுக்கு உலக அளவில் மற்ற மொழிகளுக்கு இன்றைய அறிவியலால் கிடைத்துள்ள மதிப்பைப் பெறமுடியும் ! கணினி உலகில் . . . இணைய உலகில் . . . தமிழ்மொழி வெற்றி நடைபோடமுடியும்! உலகெங்கும் உள்ள அறிவியல் உண்மைகளைத் தமிழிலேயே பெறமுடியும்!

0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India