வெள்ளி, 24 மார்ச், 2023

மொழித் தரவுச் சேகரிப்புக்கு நல்ல வருமானம் !

மொழித் தரவுச் சேகரிப்புக்கு நல்ல வருமானம் !

------------------------------------------------------------------------------------------------------------------

தற்போது பெங்களூரில் இயற்கைமொழி ஆய்வுக்கான நிறுவனங்கள் பல உள்ளன. பெரும்பாலும் இந்த நிறுவனங்கள் செயற்கை அறிவுத்திறன் அடிப்படையிலான ஆய்வுகளை மேற்கொண்டு வருகின்றன. மேலும் கூகுள், மைக்ரோசாப்ட் போன்ற நிறுவனங்களுக்கு இந்திய மொழிகளுக்கான தேவையான தரவுகளை இந்த நிறுவனங்கள் அளித்துவருகின்றன.

நிகழ்தகவு புள்ளியியல் (Probabilistic statistics) , நரம்பு வலைப்பின்னல் ( neural network) , ஆழ்நிலை கற்றல் (Deep Learning) , செயற்கை அறிவுத்திறன் ( Artificial Intelligence) அடிப்படையில் மொழித்தொழில்நுட்பப் பணிகளை மேற்கொள்ளும் கணினித்திறன் ( வன்பொருள், மென்பொருள் இரண்டிலும்) கூகுள், மைக்ரோசாப்ட் போன்ற நிறுவனங்களுக்குத்தான் தற்போது இருக்கின்றன.

மேலும் நூற்றுக்கணக்கான மொழிகளுக்கு அவை மொழித்தொழில்நுட்பத்தை மேற்கொள்ள இயலுகின்றன. ஒவ்வொரு மொழிக்கும் கோடியே கோடித் தரவுகளை இந்த நிறுவனங்கள் அந்தந்த மொழி பேசுவோர் நாட்டிலிருந்து பெற்றுக்கொள்கின்றன. இந்த நிறுவனங்களின் மொழித்தொழில் நுட்பத்திற்கும் கணினிமொழியியல் - இலக்கணம் - விதிகள் அடிப்படையில் மேற்கொள்ளப்படுகிற ஆய்வுக்கும் வேறுபாடு உள்ளது.

கூகுள் போன்ற நிறுவனங்களுக்கு ஆங்கிலம்போன்ற மொழிகளுக்குத் தரவுகளைக் கோடியே கோடி எண்ணிக்கையில் இணையத்திலிருந்து பெற்றுக்கொள்வதில் சிக்கல் இல்லை. ஆனால் தமிழ்மொழி போன்ற மொழிகளுக்கு அவ்வாறு கிடைப்பது இல்லை. எனவே இந்திய மொழிகளுக்கான மொழித்தரவுகளை - பேச்சுத் தரவு, எழுத்துத்தரவு இரண்டுமே- பெறுவதற்குப் பன்னாட்டு நிறுவனங்கள் முயல்கின்றன. அதற்கு ஏராளமான பணத்தைச் செலவிடத் தயாராக அவை இருக்கின்றன.

ஆண் - பெண் தரவு, இளையர் - முதியோர் தரவு என்று பல அடிப்படைகளில் தரவுகள் அவற்றிற்குத் தேவைப்படுகின்றன. பெங்களூர்போன்ற நகரங்களில் செயல்படும் பல பெரிய நிறுவனங்கள் இதில் மிகுந்த ஆர்வமும் கவனமும் செலுத்திவருகின்றன என்று நான் கருதுகிறேன்.

தரவுகளைச் சேகரித்தல், பிழைகள் அகற்றல் (Proofreading) , சீர்மைப்படுத்தல் (Normalization) போன்ற பணிகளைமட்டுமே மேற்கொண்டு, நல்ல ஊதியம் பெறத் தற்போது வாய்ப்பு உள்ளது. ஆனால் முறையான தொடர்பு வேண்டும். அத்தரவுகளைக் கொண்டு, பல்வேறு வழிமுறைகளை மேற்கொண்டு, மொழித்தொழில்நுட்பக் கருவிகளை ( language tools - from Spellchecking to Machine Translation) இந்தப் பன்னாட்டு நிறுவனங்கள் உருவாக்கிக்கொள்ளும். இளைஞர்கள் இதற்குத் ''தரவுமொழியியல் (Corpus Linguistics) '' என்ற துறையில் பயிற்சிபெற்றால் நல்லது.

ஒரு காலகட்டத்தில் ஆங்கிலேய ஆட்சியாளர்கள் இந்தியாவிலிருந்து மூலப்பொருள்களைத் தங்கள் நாட்டிற்கு ஏற்றுமதி செய்து, அவற்றைக்கொண்டு நுகர்வோர் பொருள்களை உற்பத்திசெய்து, மீண்டும் இந்தியாவில் இறக்குமதி செய்து விற்றதுமாதிரி . . . தற்போது இந்தத் தரவுசேகரிப்பு இங்கு நடைபெறுகிறது.

தரவு ஏற்றுமதி - மொழிக்கருவிகள் உருவாக்கம் - அவற்றின் இறக்குமதி என்று தற்போது ஒரு நிலை ஏற்பட்டுள்ளது. ஏன் இதை இங்கேயே உருவாக்கக்கூடாது என்று நண்பர்கள் கேட்கலாம்! உற்பத்தித்திறன் , மூலதனம், தொழில்நுட்பம் - இங்கு இல்லையே!

அடுத்த கட்டமாகக் கூகுள் போன்ற நிறுவனங்கள் இந்தியாவிற்குத் தங்கள் நிதிமூலதனத்தை இறக்குமதிசெய்து, உள்ளூர் நிறுவனங்களை உருவாக்கி, உள்ளூர் உழைப்பைப் பயன்படுத்தி, கருவிகளை உருவாக்கி, இங்கேயேயும் விற்கும்; பிற நாடுகளுக்கும் ஏற்றுமதி செய்யும்.

இங்குள்ள உள்ளூர் நிறுவனங்கள் செக்கிழுத்த செம்மல் வ உ சி போன்று . . . மூழ்கும் ''தேசியக் கப்பல் '' ஓட்டவேண்டியதுதான்!

இன்று தமிழகத்தில்கூட நண்பர்கள் பலர் '"தமிழுக்குத் தேவையான மென்பொருள்களை கூகுள், மைக்ரோசாப்ட் கொடுத்துவிடும்; மேலும் அவை கொடுக்கும் மென்பொருள்களின் தரம் மிகச் சிறப்பாக இருக்கும்; என்னயிருந்தாலும் தமிழகத்திலேயே உருவாக்கப்படும் மென்பொருள்கள் அந்தத் தரத்திற்கு வரமுடியுமா?'' என்று தங்களுடைய ''சர்வதேசிய உணர்வோடு'' இருப்பதைப் பார்க்கலாம். கூகுள், மைக்ரோசாப்ட் நிறுவன உரிமையாளர்கள் அல்லது உயர் அதிகாரிகளை ( பில்கேட்ஸ், சுந்தர் பிச்சை, நாதெல்லா ) ஆகியோர்களுக்குச் ''சிவப்புக் கம்பள மரியாதை'' அளித்துக்கொண்டிருக்கிறோம்! அவர்கள் எதற்காக இந்தியாவைத் தேடிவருகிறார்கள் என்பதுபற்றிக் கவலைப்படுவதில்லை! நல்லதொரு தேசிய உணர்வு . . . நாட்டுப்பற்று!


0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India