பேச்சுத் தொழில்நுட்பமும் மொழிபெயர்ப்பும் ( Speech Technology and Automatic Translation) . . . (1)
தமிழ்மொழி, மொழியியல் , கணினிமொழியியல் ஆய்வுமாணவர்களுக்குப் பயன்படும் ( அல்லது பயன்படலாம்!) பதிவு
-------------------------------------------------------------------------------------------------------------
இன்று கணினி உலகின் புரட்சி மிகப் பெரிய அளவில் நடைபெற்றுக்கொண்டிருக்கிறது. ஒருவர் ஒரு குறிப்பிட்ட மொழியில் பேசுவதை மற்றொரு மொழியில் மொழிபெயர்த்துத் தரும் கணினித் தொழில்நுட்பம் மிக வேகமாக வளர்ந்துவருகிறது. இந்தத்
தொழில் நுட்பத்தைத் தமிழுக்குச் செயல்படுத்தப் பல கல்வி நிறுவனங்களும் தனியார் நிறுவனங்களும் முயன்றுவருகின்றன. விரைவில் இந்த ஆய்வு வெற்றியடைந்து தமிழ் உலகத்திற்குப் பயன் தரவேண்டும் என்பதில் யாருக்கும் இரண்டாவது கருத்தே இருக்கமுடியாது; இருக்கவும்கூடாது.
மேற்கண்ட ஆய்வில் ஈடுபடுகிறவர்கள் எதிர்நோக்குகிற ஒரு சிக்கலைப்பற்றியே இந்தப் பதிவு . . .
தமிழ் ஒரு இரட்டைவழக்கு மொழியாக ( Diglossic language) இருப்பதால் ஒரு சிக்கல் எழுகிறது. அதுபற்றியே இந்தப் பதிவுத் தொடர்.
தமிழ் எழுத்துரை அல்லது கட்டுரையை அப்படியே வாசிக்கும் தமிழ் மென்பொருள்களை உருவாக்குவதில் எனக்குத் தெரிந்து இரண்டு பேராசிரியர்கள் (தமிழர்கள்) குறிப்பிடத்தக்க அளவு வெற்றிபெற்றுள்ளார்கள். ஒன்று சிவநாடார் நிகர்நிலைப் பல்கலைக்கழகத்தின் கணினியியல் பேராசிரியர் முனைவர் நாகராசன் அவர்கள்; மற்றொருவர் பெங்களூரு இந்திய அறிவியல் தொழில்நுட்ப நிறுவனத்தைச் சேர்ந்த பேராசிரியர் ஏ ஜி இராமகிருஷ்ணன் அவர்கள். இருவர்களும் தங்களுடைய சக ஆய்வாளர்கள், ஆய்வு மாணவர்களுடன் இப்பணியை மேற்கொண்டுள்ளனர். தற்போது சென்னையில் உள்ள இந்தியத் தொழில்நுட்பக் கழகமும் ( Indian Institute of Technology - IIT) இந்தப் பணியில் ஈடுபட்டுள்ளது.
கூகுள், மைக்ரோசாஃப்ட் போன்ற பன்னாட்டு நிறுவனங்களும் இந்த ஆய்வுகளில் குறிப்பிடத்தக்க வெற்றிகளைப் பெற்றுவருகின்றனர்.
ஒரு மொழியில் பேசும் மொழியின் (Spoken ) அமைப்பும் எழுத்துமொழியின் (Written) அமைப்பும் ஒன்றுபோல் இருந்தால் . . . பேச்சு அலைகளின் இயற்பியல் ஆய்வுகளின் ( Acoustic Phonetics) அடிப்படையில் பேச்சை எழுத்துவடிவில் மாற்றுவது சற்று எளிதான பணியாக அமையும். ஒரு சொல்லின் பேச்சு அலையின் இயற்பியல்கூறுகளை (Acoustic properties) அப்படியே அந்த மொழியின் வரிவடிவமாக (Graphemes) - எழுத்தாக ( Speech to Text) - கணினித்தொழில் நுட்பத்தைக்கொண்டு மாற்றிவிடலாம். அதுபோன்று எழுத்துரையையும் பேச்சுரையாக ( Text to Speech) அப்படியே மாற்றிவிடலாம். சிக்கலே கிடையாது.
ஆனால் இயற்கைமொழிகளின் அமைப்பு அப்படிக் கிடையாது. ஆங்கிலத்தை எடுத்துக்கொண்டாலும் சிக்கல் உண்டு. ஆங்கில எழுத்துரையை (Written) அப்படியே வாசிப்பாக (Reading) மாற்றிவிடமுடியாது. அதற்குக் காரணம் , ஆங்கிலத்தில் சொற்களில் அமைந்துள்ள எழுத்துக்களுக்கும் அவற்றின் வாசிப்புக்கும் ( Spelling and Pronunciation) நேரடித் தொடர்பு அப்படியே கிடையாது.
எடுத்துக்காட்டாக, cat, cut, come என்ற சொற்களில் உள்ள "c" -இன் உச்சரிப்பு "k" ; ஆனால் city, cipher, cigarette, cylinder ஆகியவற்றில் "c" என்பது "c / s" என்று உச்சரிக்கப்படுகிறது. இதற்கு மொழியியல் அடிப்படையில் தெளிவான விதிகள் இருக்கின்றன. அவற்றின் உதவியால் இப்பிரச்சினையைத் தீர்க்கலாம்.
ஆனால் இதையும் தாண்டி, மற்றொரு சிக்கல் ஆங்கிலத்தில் உள்ளது. சில சொற்களில் உள்ள எழுத்துக்கள் வாசிப்பில் வெளிப்படாது; அவை உச்சரிக்கப்படாது. எடுத்துக்காட்டாக, plumber என்ற சொல் வாசிக்கப்படும்போது, ''b" எழுத்து வெளியில் உச்சரிக்கப்படாது. Psychology போன்று சொற்கள் அப்படி உள்ளது. அதற்கு ஒரு காரணம், சில சொற்கள் அயல்மொழிகளிலிருந்து கடன் வாங்கப்பட்டவை (Loan words) . அவ்வாறு வாங்கும்போது, அந்த அயல்மொழிகளின் உச்சரிப்பும் சேர்ந்து கடன் வாங்கப்படுகிறது. அதனால் எழும் சிக்கல் இது.
மேலும் ஒரு சிக்கல் ஆங்கிலத்தில் உண்டு. ஒரே சொல் பெயராகவும் வினையாகவும் இருக்கும்போது, அதை வேறுபடுத்தச் சொற்களுக்குள்ளே உள்ள மொழியசைகளில் அழுத்தம் (stress) பயன்படுகிறது. எடுத்துக்காட்டாக, consent என்ற சொல்லில் இரண்டு மொழியசைகள் உள்ளன - con, sent இரண்டு மொழி அசைகள் உள்ளன. முதல் அசையில் அழுத்தம்கொடுத்தால் பெயர்ச்சொல்; இரண்டாவது அசையில் அழுத்தம் கொடுத்தால் வினைச்சொல்.
மேற்கூறிய காரணங்களால்தான் ஆங்கிலத்தில் உச்சரிப்புக்கென்று தனியே அகராதிகள் (Pronunciation dictionaries- by Daniel Jones, Gimson போன்றோர் உருவாக்கியவை) இருக்கின்றன.
மேற்கூறிய கருத்துக்கள் எல்லாம் ஆங்கிலத்தின் ஒரு பண்பைக் காட்டுகின்றன. அதாவது, எழுதும் நிலை வேறு (Writing Level) ; வாசிக்கும் நிலை ( Reading Level) வேறு. அதாவது எழுதுவதை அப்படியே வாசிக்கமுடியாது. சில மொழி விதிகளைப் பின்பற்றித்தான் வாசிக்கவேண்டும்.
அதாவது, எழுதப்படும் சொற்களில் உள்ள எழுத்துக்களை வைத்துக்கொண்டு, அப்படியே வாசிக்கமுடியாது. எழுதுநிலை (Writing Level) வேறு; வாசிப்பு நிலை (Reading Level) வேறு. இதுபோக, ஆங்கிலத்தில் உள்ள வழக்குக்கள் (dialects) வேறுபாடுகள் வேறு.
ஆனால் தமிழில் இந்தச் சிக்கல் கிடையாது. எழுதுவதை அப்படியே வாசிக்கலாம். மாற்றொலி விதிகள் மட்டும் தெரிந்திருக்கவேண்டும். கடல், அக்கா ; தங்கம், பங்கு ; பகல், இகழ் என்பவற்றில் சொல்முதல், சொல் நடுவில் இரட்டிப்பு முதலியவற்றில் 'x" என்று உச்சரிக்கவேண்டும். சொல் நடுவில் மெல்லினத்திற்குப் பின்னர் "g" என்று உச்சரிக்கவேண்டும்; சொல்நடுவில் இரண்டு உயிர்களுக்கு இடையில் "x" என்று உச்சரிக்கவேண்டும். இது இயற்கையான வேறுபாடு. முந்தைய, பிந்தைய ஒலிகளின் அடிப்படையில் அமைகிற வேறுபாடுகள். அவ்வளவுதான். அதுவும் வல்லின ஒலிகளுக்குமட்டும்தான் இப்பிரச்சினை. மெல்லினம், இடையினங்களுக்குச் சிக்கல் இல்லை. ஒரு எழுத்துக்கு ஒரு உச்சரிப்புத்தான்! மாற்றொலிச் சிக்கல் கிடையாது.
எனவே தமிழில் எழுதுவதை அப்படியே உச்சரிக்கலாம். வாசிக்கலாம். அதாவது ஆங்கிலத்தில் இருப்பதுபோன்ற எழுத்து நிலை (Writing level ) வேறு, வாசிப்பு நிலை (Reading Level) வேறு என்ற வேறுபாடு கிடையாது.
ஆகவே, தமிழ் எழுத்துரையை அப்படியே வாசிக்கலாம். ஆங்கிலம் போன்று உச்சரிப்பு அகராதி தேவை இல்லை.
மேற்குறிப்பிட்ட ஆங்கிலத்திற்கான சிக்கலை மொழியியல் உதவிகொண்டு தீர்த்து, ஆங்கில எழுத்துரையைப் பேச்சுரையாக ( Text to Speech) மாற்றவும், பேச்சுரையை எழுத்துரையாகவும் ( Speech to Text) மாற்றவும் மென்பொருள்கள் (software) தயாரிக்கப்பட்டுள்ளன.
அடுத்த பதிவில் தமிழுக்கு உள்ள வேறு சிக்கல்களை எழுதுகிறேன்.