மொழி இலக்கண அறிவு செய்யறிவுத்திறன் மென்பொருள்களுக்குத் (Artificial Intelligence - AI) தேவையா?
---------------------------------------------------------------------------------------------------------
நாம் நமது கருத்து வெளிப்பாட்டுக்கும் பரிமாற்றத்திற்கும் (Communication) அடிப்படையாகப் பயன்படுத்துவது நமது இயற்கைமொழிகளையே (Verbal means) ! மொழிகளோடு நமது முகத்தோற்றம், கை , கால், உடல் அசைவுகள், படங்கள், குறியீடுகள் போன்றவையும் (Non-verbal means) பயன்படுத்துகிறோம். இவற்றிற்கும் கருத்துப் பரிமாற்றத்தில் ஒரு முக்கிய இடம் உண்டு. இருப்பினும் மொழிகளே அடிப்படையானவை.
பிறந்த குழந்தை ஒரு சில வருடங்களில் - குறிப்பாக மூன்று , நான்கு வருடங்களில் - தனது தாய்மொழிவழிக் கருத்துப்புலப்படுத்தத்திறனை (Communicative ability) வளர்த்துக்கொள்கிறது. அதன் மூளைக்குள் தாய்மொழியின் இலக்கணம் (Grammar) , சொற்களஞ்சியம் அல்லது அகராதி (Lexicon) இடம்பெறுகின்றன. அதன் பயனாகவே குழந்தை தனது மொழிவழிக் கருத்துப்புலப்படுத்தச் செயல்களை மேற்கொள்கிறது.
குழந்தையின் மூளையில் ஒரு குறிப்பிட்ட வயதில் மொழி இலக்கண, சொல் அறிவு வளர்ந்துநிற்கிறது என்பதில் மொழியியல் ஆய்வாளர்களிடையே கருத்து வேறுபாடு கிடையாது. ஆனால் அது எவ்வாறு வளர்கிறது என்பதில் சோம் சாம்ஸ்கி போன்றவர்களுக்கும் பி எஃப் ஸ்கின்னர் போன்றவர்களுக்கும் இடையே கருத்து வேறுபாடு உண்டு. பிறக்கும்போதே குழந்தைக்கு ஒரு பொதுமை இலக்கணம் உயிரியல் அடிப்படையில் மூளையில் நீடிக்கிறது. அதன்பயனாக , குழந்தையானது குறைந்த தரவுகளில் நிறைந்த மொழியறிவைப் பெற்றுக்கொள்கிறது என்று சாம்ஸ்கி கூறுகிறார். ஸ்கின்னர் போன்றவர்கள் அதை ஏற்றுக்கொள்ளாமல், குழந்தைபிறகுதான் தனக்குக் கிடைக்கிற மொழித்தரவுகளின் அடிப்படையில் தனது மொழியறிவைப் பெற்றுக்கொள்கிறது என்று கூறுகிறார்கள்.
இவ்வாறு இரண்டு மாறுபட்ட கருத்துகள் நிலவினாலும், இரு தரப்பினருமே குழந்தையின் மூளையில் ஒரு குறிப்பிட்ட கட்டத்தில் மொழி இலக்கணம் வளர்ந்துநிற்கிறது என்பதை ஏற்றுக்கொள்கிறார்கள். இந்த மொழி இலக்கணமே நமது மொழித்திறனுக்கு அடிப்படை என்பது ஏற்றுக்கொள்ளப்படுகிறது.
ஆனால் இன்றைய செய்யறிவுத்திறன் அறிவியலில் (AI) இதற்கு மாறுபட்ட கருத்து நிலவுகிறது. கணினிக்கு ஒரு மொழியின் இலக்கணம், சொற்களஞ்சியம் ஆகியவை அளிக்கப்படாமலேயே . . . தனக்கு கோடியே கோடி மொழித்தரவுகளை (language data in trillions) அளித்தாலே போதும் . . . நிகழ்தகவுப் புள்ளியியல் (Probabilistic statistics) அடிப்படையில் மனிதன் பெற்றுள்ள மொழித்திறனைக் கணினி பெற்றுவிடும் என்று கூறப்படுகிறது. நடைமுறையிலும் மொழி பெயர்ப்பு, கட்டுரை எழுதுதல், கட்டுரைச் சுருக்கம் தருதல் உட்பட ஏராளமான மொழிவழிச் செயல்பாட்டுத்திறன்களைக் ( language Performance) கணினி பெற்றுக் கொண்டு, மனிதனுக்குப் போட்டியாக மிகச் சிறப்பான முறையில் மொழிவழிக் கருத்துபரிமாற்றத்தை மேற்கொள்கிறது. இது ஒரு வியக்கத்தக்க வளர்ச்சி! மறுப்பதற்கு இல்லை!
ஒரு தொடரில் இந்தச் சொல் பெயர்ச்சொல், இந்தச்சொல் வினைச்சொல், இது விகுதி, இது சந்தி என்ற விவரங்கள் எல்லாம் கணினிக்குத் தேவை இல்லை! அப்படியென்றால் அதற்கு என்னதான் தேவை?
ஒரு தொடரில் ஒரு குறிப்பிட்ட சொல்லுக்குமுன்னால் அமைகிற சொற்கள் என்ன? பின்னால் அமைகிற சொற்கள் என்ன? ஆனால் ஒரு சொல்லுக்குமுன்னால் அமைகிற ஒரு சில சொற்கள்மட்டும் போதாது. அதற்கு முன்னால் அமைகிற ஆயிரக்கணக்கான சொற்கள், பின்னால் அமைகிற ஆயிரக்கணக்கான சொற்கள் தேவை. அதை வைத்துக்கொண்டு . . . ஒரு சொல்லைப் புரிந்துகொள்ளும் அல்லது பயன்படுத்தும் திறனைக் கணினி பெற்றுவிடும். இதைத்தான் பெரியமொழிமாதிரி (Large Language Model - LLM) என்று அழைக்கிறார்கள்.
மொழியியலிலும் மேற்குறிப்பிட்ட கருத்துக்குத் தொடர்பான ஒரு கோட்பாடு உண்டு. இது இங்கிலாந்து மொழியியல் அறிஞர்களான பிர்த், ஹாலிடே போன்றவர்கள் உருவாக்கிய Systemic Grammar என்ற கோட்பாடாகும். ஒரு சொல்லை அல்லது தொடரைப் (Text) புரிந்துகொள்ள . . . அந்தச் சொல் அல்லது தொடர்மட்டும் அல்லாமல் . . . அவற்றிற்குமுன்பின் அமைகிற சொற்கள் அல்லது தொடர்களும் (Co-text) தேவை . . . இதைச் சொல் அல்லது தொடரின் சூழல் என்று கூறுவார்கள். ஆனால் அத்தோடு, சொற்கள் அல்லது தொடர்கள் பேசப்படுகிற மொழிசாராப் பின்னணி (Context) அறிவுத் தேவை. ஆனால் இக்கோட்பாடு மொழி இலக்கண அறிவு நமக்குத் தேவை இல்லை என்று கூறவில்லை. பெயர், வினை, வேற்றுமை, காலம் போன்றவைபற்றிய மொழி அறிவு உறுதியாகத் தேவை என்பதை ஏற்றுக்கொள்கிறது. அதுதான் சொல் அல்லது தொடர் அறிவு, முன்பின் அமைகிற சொல் அல்லது தொடர் அறிவு என்று கூறுகிறது.
ஆனால் இன்றைய கணினியின் மிகப் பிரம்மாண்டமான வளர்ச்சி நிலையில் . . . சொல், தொடர் போன்ற இலக்கண அறிவை நேரடியாகக் கணினிக்கு அளிக்கவேண்டிய தேவை இல்லை. மொழிவழிச் செயல்பாடுகளுக்குத் தேவையான அறிவு எல்லாவற்றையும் தரவுகள், நிகழ்தகவு ஆகியவற்றின்மூலமே கணினி பெற்றுக்கொள்ளும்.
ஆனால் இதற்கு முந்தைய வளர்ச்சியான கணினிமொழியியல் (Computational Linguistics) இவ்வாறு சொல்லவில்லை. மாறாக, மனித மூளையில் நீடிக்கிற மொழி அறிவைக் கணினிக்கு ஏற்ற வடிவத்தில் எவ்வாறு கொடுப்பது என்பதே அதன் நோக்கமாக இருந்தது.
ஆகவே, இன்றைய செய்யறிவுத்திறனின் மொழித்திறனுக்கு மொழியியல் ஆய்வு தேவை இல்லை . . . இலக்கண ஆய்வு தேவை இல்லை என்னும் கருத்து வலுப்பெற்றுவருகிறது. மனித மூளைக்கு இது தேவைப்படலாம். ஆனால் இன்றைய பிரம்மாண்ட வளர்ச்சிபெற்றுள்ள கணினிக்குத் தேவை இல்லை! என்பதே இதன் அடிப்படை!
தேவை எல்லாம். . . நம்மால் பயன்படுத்தப்பட்ட கோடானுகோடி மொழித்தரவுகளே என்று கூறப்படுகிறது! இந்த மொழித்தரவுகளைப் பெறவும் சேமித்து வைக்கவும் ஆய்வுசெய்யவும் பயன்படுத்தவும் இன்றைய கணினித்தொழில்நுட்பத்தால் முடியும் என்பதே இதன் கருத்து! ஆனால் அதற்குக் கூகுளும் மைக்ரோசாப்டும் பேஸ்புக்கும் அமேசானும் ஐபிஎம்மும் போன்ற பன்னாட்டு ஏகபோக நிறுவனங்கள் தேவை! அவற்றால்தான் இப்படிப்பட்ட கணினித்தொழில் நுட்பத்தைக் கொடுக்கமுடியும் இன்றைக்கு! உலகில் எந்தவொரு மொழியும் இந்தத் தொழில்நுட்ப வளர்ச்சியைப் பெற . . . இந்த நிறுவனங்களையே சார்ந்துநிற்கவேண்டும்!
இங்கு நாம் கவனமாகப் பார்க்கவேண்டியது . . மனிதன் தன் மூளையைச் சாராமல், ஒரு கணக்கைச் செய்வதற்கு எவ்வாறு கணிப்பாணைச் சார்ந்துநிற்கிறானோ, அதுபோன்று ஒருவன் தன் மூளை, பேச்சு, எழுத்தைச் சாராமல், கணிவழியே தன் அனைத்துக் கருத்துப்பரிமாற்றதையும் செய்துகொள்ளலாம் என்று நினைத்தால் , அவனுக்கு மொழி அறிவு தேவை இல்லை. மொழிக்கல்வி தேவை இல்லை. இலக்கணங்கள் தேவை இல்லை!
அப்படி ஒரு மனித சமுதாயம் நீடிக்கமுடியாது! கவலை வேண்டாம். மனிதனுக்கு மொழி அறிவு தேவை . . . இலக்கணம் தேவை . . . சொற்களஞ்சியம் தேவை! இவையெல்லாம் கணினிக்குத் தேவை இல்லாமல் இருக்கலாம்! ஆனால் மனித சமுதாயத்திற்குத் தேவை! பொருள் உற்பத்திக்குத் தேவை. சமுதாயநீடிப்புக்குத் தேவை!
0 கருத்துகள்:
கருத்துரையிடுக