வெள்ளி, 14 நவம்பர், 2025

"தமிழில் மென்பொருள்'' - ''தமிழுக்கான மென்பொருள் '' - வேறுபாடு என்ன?

 "தமிழில் மென்பொருள்'' - ''தமிழுக்கான மென்பொருள் '' - வேறுபாடு என்ன?

-----------------------------------------------------------------------------------------------------
இன்றைய கணினித்தொழில் நுட்ப வளர்ச்சியில் எந்தவொரு மென்பொருளையும் - பணம் இருந்தால் - உருவாக்கமுடியும். ஆனால் ஒன்றில்தான் சிக்கல் ஏற்படும்.
''தமிழில் மென்பொருள்'' என்பதும் ''தமிழுக்கான மென்பொருள்'' என்பதும் வேறுபட்டவை. தமிழில் மென்பொருள் என்பது இடைமுகம் தமிழில் அமைவதையே (Localization) குறித்துநிற்கிறது. இது சிக்கல் இல்லை.
ஆனால் தமிழைப் புரிந்துகொள்ளவும் தமிழில் பேச, எழுதவும் மென்பொருள்கள் தேவை. அதாவது கணினிக்கும் நமக்கும் இடையில் தமிழ்வழியே கருத்தாடல் நடைபெறவேண்டும் (Human - Computer Tamil Interface) . அதற்கான மென்பொருள் தொழில்நுட்பத்தை உருவாக்குவதே கணினிமொழியியல் (Computational Linguistics) அல்லது மொழித்தொழில்நுட்பம் (Language Technology) ஆகும்.
நானும் எனது குழுவினரும் அதற்கான பணிகளில்தான் ஈடுபட்டுவருகிறோம். சொற்பிழைதிருத்தியிலிருந்து மொழிபெயர்ப்புவரை பலவகைப்பட்ட மொழிச்செயல்பாட்டுத் திறன்களையும் கொண்டதாகத் தமிழ் மென்பொருள்கள் - தமிழைக் கையாளுகிற மென்பொருள்கள் - அமையவேண்டும்.
இதற்கு இன்றைய காலகட்டத்தில் இரண்டு வழிகளே உள்ளன.
முழுக்க முழுக்கப் பெரும்மொழிமாதிரியின் (Large Language Model - LLM) திறன்களில் தமிழையும் முழுமையாகக் கையாளும் திறன் உள்ளடங்கவேண்டும். அதற்குத் தேவையான பல கோடி தமிழ்த்தரவும் தேவையான கணினி வன்பொருள்களும் கிடைக்கவேண்டும். இதில் குறிப்பிட்ட மொழிகளின் இலக்கண அறிவு தேவைப்படாது; அல்லது மிகக் குறைந்த அளவே தேவைப்படும் (Unsupervised Learning).
மற்றொரு வழி, இருக்கின்ற பெரும்மொழிமாதிரியைத் தமிழுக்குக் குறிப்பிட்ட மொழிச் செயல்பாடுகளுக்காக மேம்படுத்தவேண்டும் (Fine -tuning) ) . குறைந்த அளவு மின்னணுத் தரவுகொண்ட இன்றைய தமிழுக்கு முழுக்க முழுக்க தரவுகளைக்கொண்டுமட்டுமே தமிழறிவைக் கொடுத்துவிடமுடியாது. குறைந்த அளவு தரவு இருப்பதால் இலக்கண அறிவோடு அத்தரவுகளைக்கொண்டு பெரும்மொழிமாதிரிகளைப் பயிற்றுவிக்கவேண்டும் (Supervised Learning) .
இந்த இரண்டாவது பணியில்தான் நம்மால் தற்போது ஈடுபடமுடியும். அதற்கே நிதி வசதி இல்லாமல்தான் திணறுகிறோம். இதுதான் இன்றைய நிலை.
எனவே, கூகுள், மைக்ரோசாப்ட், ஆப்பிள் போன்ற பன்னாட்டு நிறுவனங்கள் அல்லது பன்னாட்டு மூலதனங்களைக்கொண்டு பலவகைப்பட்ட மென்பொருள்களை உருவாக்குகிற நிறுவனங்களின் நோக்கம் வேறு.
கணினிமொழியியல், இயற்கைமொழி ஆய்வு, மொழித்தொழில்நுட்பம் ஆகியவற்றின் நோக்கம் வேறு. இந்த இரண்டாவது பணியைத் தமிழுக்குச் செய்வதில்தான் நாம் கவனம் செலுத்தவேண்டும். எங்களுடைய தமிழாய்வு மென்பொருள்களும்( மின்னிலக்கணம், தமிழ் மின்னகராதி, தமிழ்த் தரவகம் போன்றவை), தமிழ்ப் பயன்பாட்டு மென்பொருள்களும் (மென்தமிழ் போன்றவை) இந்த இரண்டாவது வகையைச் சேர்ந்ததே. இதற்கு யார் உதவி செய்யமுடியும்? உதவி செய்வார்கள்? இதுதான் இன்றைய பிரச்சினை!

1) கணினித்தமிழ் வளர்ச்சியின் முதல் கட்டத்தில் தமிழ் எழுத்துரு, தமிழ் விசைப்பலகை, மென்பொருளின் பட்டி அல்லது மெனுக்கள் தமிழ்ச்சொற்களாக அமைந்திருத்தல் (Localization) ஆகியவை உருவாக்கப்பட்டன. 2) இரண்டாவது கட்டத்தில் தமிழ்க்கோப்புகளின் சொற்பிழை திருத்திகள், ஒற்றுப்பிழை திருத்திகள் , அகராதிகள் ஆகியவை இடம்பெறத் தொடங்கின. 3) தற்போதைய மூன்றாவது கட்டத்தில் , தற்போதைய செய்யறிவுத்திறன் வளர்ச்சியில் எழுத்துரை - பேச்சுரை மாற்றியிலிருந்து மொழிபெயர்ப்பு, உரைச்சுருக்கம் தருதல், உரையாடல் போன்ற பலவகை மொழிப்பயன்பாடுகள் தமிழுக்குக் கிடைக்கின்றன.


0 கருத்துகள்:

கருத்துரையிடுக

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Hot Sonakshi Sinha, Car Price in India