Sunday, August 24, 2014

தமிழ் Unicode எழுத்துரு அரசியல் - இந்தி வெறியர்களால் தமிழுக்கு கணிணி பயன்பாட்டில் ஏற்பட்ட பின்னடைவு

இந்திய அரசின் சர்வாதிகார போக்கினால் கணிணிக்கு ஏற்ற மொழியான தமிழை தேவையில்லாமல் தேவநாகரி மொழியுடன் இணைத்து Unicode எழுத்துறுவில் தமிழை பயன்படுத்த complex rendering engine உதவியின் தேவையை திணித்துள்ளனர். இதனால் இணையத்தில் தமிழை பயன்படுத்துவது மற்றும் தமிழ் மொழி சார்ந்த தேடல் பெரிய பின்னடைவை சந்தித்துள்ளது. நம் முன்னோர்கள் செம்மையாக தமிழ் மொழியின் எழுத்துக்களை சில ஆயிரம் ஆண்டு முன்பே தரபடுத்தி இருக்கிறார்கள். அதன் படி கணிணிக்கு ஏற்ற மொழியாக தமிழ் மொழி உள்ளது. ஆனால் இந்தி வெறியர்களின் முயற்சியால் தமிழின் இந்த பயனை கணிணியுகத்தில் அனுபவிக்க முடியாது இருக்கிறோம்.

திரு மணி மணிவண்ணன் மற்றும் பேரா. செல்வகுமார் ஆகியோரின் தமிழ் கணிணி பற்றிய நேர்கோணல் சிறகு இதழில் வெளி வந்துள்ளது. இது.Unicode எழுத்துறு பற்றிய வரலாறை அறிந்து கொள்ள அனைவரும் படிக்க வேண்டிய நேர்கோணல்

http://siragu.com/?p=14890

நேர்கோணலிலிருந்து ஒரு பகுதி

கேள்வி: கடந்த இரண்டு ஆண்டுகளுக்கு முன்னால் Unicode, பல சிக்கல்கள், பிரச்சனைகள் நடந்துகொண்டிருந்தது. அதில் தமிழுக்கான இடம் வேண்டும், இத்தனை இடம் வேண்டும், இந்த மாதிரியான பல பிரச்சனைகள் வந்தது. அதற்குப் பிறகு ஒரு முடிவுக்கு வந்து இன்று நாம் அனைவரும் பயன்படுத்தக்கூடிய Unicode, அனைவரும் பயன்படுத்துகிறோம். ஆனால் அதிலும் சிலர் குறைகள் இருப்பதாக உணர்கிறார்கள். Unicode, ல் அடைந்த வெற்றி, நிறை மற்றும் குறை, அந்தக்குறைகளுக்கு என்ன தீர்வு?

பதில்(மணிவண்ணன்): தமிழ் யூனிகோடு, என்பது என்னைப்பொறுத்தவரையில் போற்றத்தக்க ஒரு குறியீடு. ஏனென்றால் பல்வேறு தனித்தனி குறியீடுகள் தமிழில் இருந்தபொழுது ஒருவர் எழுதியதை இன்னொருவர் படிக்கமுடியாத சிக்கல்கள் எல்லாம் இருந்தன. தமிழக அரசு TAM/TAB தரத்தை உருவாக்கியபொழுதும் அதையும் பலர் ஏற்றுக்கொள்ளாத நிலை இருந்தது. இப்படிச் சிதறுண்டு கிடந்த தமிழ்ப்புலத்தை ஒரு குடையின் கீழ் கொண்டுவந்தது யூனிகோடு. அது அதனுடைய மாபெரும் நிறை என்று சொல்லவேண்டும். யூனிகோடு ஒரு பன்னாட்டுத் தரம் என்பதால் பன்னாட்டு அமைப்புகள் எல்லாமே இதை ஆதரிக்கின்றன. ஆதலால் முகநூல் என்று நாம் அன்போடு அழைக்கும் facebook இருக்கிறதே அதில் தமிழ் இயல்பாகவே வருகிறது. இதற்காகவென்று தனியாக facebook செய்யவேண்டிய தேவையில்லை. கூகுள் (google) வழியாகத் தமிழில் மின்னஞ்சல் அனுப்பமுடிகிறது. அதைப் பார்க்கவோ, தட்டச்சு செய்யவோ இயல்பாக முடிகிறது. இதுபோன்ற பன்னாட்டு அமைப்புகள் எல்லாமே ஒரே தரத்தை பின்பற்றுவதால் இது, என்ன கணினியாக இருந்தாலும் சரி மேசைக்கணினியாக இருந்தாலும் சரி, பலகைக் கணினியாக இருந்தாலும் சரி அல்லது smartphone என்னும் திறன்பேசிகளாக இருந்தாலும் சரி எல்லாவற்றிலும் தமிழ் இருக்கிறது. இதற்கென்று தனியாக யாரும் எதுவும் செய்யவேண்டியத் தேவையில்லை. இதுதான் உலகத்தரம் என்ற ஒரு ஆணிவேர் தரும் மிகப்பெரிய நிறைவு. ஆனால் இந்த மிகப்பெரிய நிறை ஒரு வலுவான தளத்தில் அமைக்கப்பட்டிருந்தால் மிக நன்றாக இருந்திருக்கும். யூனிகோடு ஒரு நல்ல நோக்குடன் அமைக்கப்பட்டது. உலகத்திலிருக்கும் எல்லா மொழிகளுக்கும் உள்ள குறியீடுகள் அதில் இருக்கவேண்டும் என்ற அடிப்படை நோக்கோடு கொண்டுவரப்பட்டது. அவர்கள் இந்திய மொழிகளுக்கு என்று குறியீடுகள் அமைக்க வந்தபொழுது அவர்கள் இந்திய அரசை வந்து கேட்டார்கள். அப்பொழுது இந்திய அரசு தமிழுக்கு என்று ஒரு தரத்தைக் கொண்டுவரும்பொழுது தமிழ்நாட்டைக் கலந்து ஆலோசித்திருந்தால் அப்போது தமிழக அரசு கணினித்தமிழர்களை, வல்லுனர்களைக் கேட்டு பேசியிருந்தால் ஒரு நல்ல தீர்வைக் கொடுத்திருக்க முடியும். ஆனால் என்ன காரணத்தாலோ யூனிகோடு க்கும் இந்தியாவிற்கும் நடந்த அந்த உரையாடலில் தமிழகத்தின் கணினி வல்லுநர்கள் யாருமே பங்கேற்கவில்லை. அதனால் யூனிகோடு இந்தியமொழி அனைத்தையும் ஒரே கட்டமைப்பில் பார்த்தது.
இந்திய மொழிகள் அனைத்தையும் தேவநாகரி என்ற ஒரு கட்டமைப்பு. அந்தச்சட்டத்திற்குள்ளேயே கட்டுப்பட்டவை. இது பல இந்திய மொழிகளுக்கு பெரிய குறைபாடாக இல்லை. ஏனென்றால் இந்தியமொழிகளில் கூட்டெழுத்துக்கள் என்று ஒரு அமைப்பு இருக்கின்றது. கூட்டெழுத்துக்கள் இருக்கும் ஒரே காரணத்தால் ஒரு எழுத்துக்கு ஒரு குறியீடு (one to one mapping) என்றவாறு பல இந்திய மொழிகளை அமைக்க முடியாது. இந்தி, சமஸ்கிருதம் இதற்கு ஒன்றுக்கு ஒன்று அமைக்க வேண்டும் என்றால் கோடிக்கான குறியீடுகள் தேவை என்று சொல்கிறார்கள். ஆனால் தமிழ் அப்படியல்ல. தமிழில் இரண்டே இரண்டு கூட்டெழுத்துக்கள்தான் இருக்கின்றன. அந்த இரண்டும் தமிழுக்குரிய இயல்பான எழுத்துக்கள் கிடையாது. ஸ்ரீ என்பது ஒரு கூட்டெழுத்து என்பது பல தமிழர்களுக்குத் தெரியாது. ஸ்ரீ என்பதில் இருக்கும் இரண்டு எழுத்துகள்:- ரீ அது தமிழ் எழுத்து, அந்த ஷ், வ வைத்திருப்பிப் போட்டால் வரும் கிரந்த எழுத்து. அது நிறையபேருக்கு அப்படி ஒரு எழுத்து இருக்கிறது என்பதே தெரியாது. இன்னொன்று க்ஷ; இது லக்ஷ்மி என்பதில் வரும். தமிழில் பெரும்பாலும் அவ்வாறு எழுதுவதில்லை. ரிக்.ஷா என்று உடைத்துத்தான் எழுதுவோம். சென்னையெங்கும் சுற்றிப் பார்த்தால் ரிக்.ஷா என்று எழுத்து வரக்கூடிய இடங்களிலெல்லாம் தமிழர்கள் உடைத்துத்தான் எழுதுகிறோம் இது தமிழின் இயல்பு. 

இந்த கூட்டெழுத்து வடமொழிக்கு தேவைப்பட்டது. வடமொழிக்கு மெய்யெழுத்து கிடையாது. புள்ளி கிடையாது. அதனால் ஒரு மெய்யெழுத்து இன்னொரு உயிர்மெய் எழுத்தோடு இணையும் பொழுது அதை எப்படிக் காட்டுவது என்பது அவர்களுக்கு ஒரு சிக்கலாக இருந்தது. அதனால்தான் அவர்கள் கூட்டெழுத்தை பயன்படுத்தினார்கள். தமிழுக்கு அது தேவையில்லை.


உங்களுக்கு ஒரு மெய்யெழுத்து வேண்டுமென்றால் அதற்கு மேலே ஒரு புள்ளி வைத்தால் போதும். ரிக்.ஷா என்பதை எப்படி உடைக்க முடிகிறது. க மேல் புள்ளி வைத்தால் க் ஆக மாறிவிடுகிறது. இடது பாகம் க் வலது பாகம் ஷா என்று சொல்லவேண்டிய தேவையேஇல்லை. அதேபோல் ஸ்ரீ என்பதில் உள்ள சிக்கல் என்னவென்றால், அது தமிழ் மொழியே கிடையாது. இந்த இரண்டுமே வடமொழியிலிருந்து இரவலாக வாங்கியது. தமிழுக்கென்று உள்ள எழுத்துக்கள் இயல்பான தனி எழுத்துக்கள். கூட்டெழுத்துக்கள் தேவையே இல்லை. இந்த கூட்டெழுத்துக்கள் தேவையே இல்லை எனும்பொழுது தமிழின் மொத்த எழுத்துக்களே மொத்தம் 247 தான். இவையில்லாமல் நாம் இரவலாக வாங்கியிருக்கும் ஸ், ஷ், ஜ், ஹ் என்ற கிரந்த எழுத்துக்களும் அவற்றின் உயிர்மெய் வடிவங்களும், ஸ்ரீயும் வழக்கில் இருப்பதால் இந்த 247 எழுத்துக்களைத் தாண்டி மேலும் 53 எழுத்துகளைக் கூட்டி 300 எழுத்துகளோடு முற்றுப்புள்ளி வைத்திருக்கலாம். இவைதான் தமிழுக்கு இருக்க வேண்டிய மொத்தக் குறியீடுகள். 


இப்படி தமிழுக்கு ஒரு எழுத்துக்கு ஒரு குறியீடு என்று இருந்தால் ஆங்கிலத்தில் என்னென்ன செய்கிறோமோ அனைத்தையும் தமிழில் செய்ய முடியும். அப்படி இல்லாததால் என்னாகிறது என்றால், யூனிகோடில் அகரமேறிய மெய்யெழுத்துக்களைத் தனியாக எழுதுகிறார்கள் (க,ங,ச,..). பிறகு துணைக்குறியீடுகளைத் (கால், கொம்பு, புள்ளி,..) தனியாக எழுதுகிறார்கள். இப்போது மெய்யெழுத்துகளையும், ஏனைய உயிர்மெய்யெழுத்துகளையும் காட்டவேண்டும் என்றால் இவ்விரண்டு குறியீடுகளையும் திரையில் நமக்குத் தெரியாமல் ஒட்டவைக்கிறார்கள். இவற்றை ஒட்டவேண்டி இருப்பதால் இதற்கு என்று தனியாக செயலிகள் தேவைப்படுகிறது. எளிமையான தமிழ் எழுத்துகளைத் தேவநாகரி எழுத்துகளைப் போலச் சிக்கலான எழுத்துகளாகப் பார்க்கிறார்கள். திரையில் காட்டுவதற்கு இடியாப்பச் சிக்கலான வடிவமைப்புச் செயலி (complex rendering engine) தேவைப்படுகிறது. இந்தச் செயலி இருக்கும் இடங்களிலெல்லாம் தமிழைத் திரையில நன்றாக காட்டமுடியும். இந்தச் செயலிகள் சரியாக இல்லாத இடங்களில் தமிழ் எழுத்துகள் சரியாக வராது. மேலும் தேடுவது கடினமாகிறது. அதனால்தான் அடோபியில் (Adobe) பல நேரங்களில் தமிழ்ச் சொற்களைத் தேடுவது வேலை செய்வதில்லை. பல திறன்பேசிகளில் தமிழ் உடைந்து உடைந்து தெரியும். பிடிஎப் (PDF) கோப்பில் தமிழை சேமித்து வைக்கிறீர்கள் என்றால் தேடமுடியாமல் போவதற்கும் இதுதான் காரணம். தமிழ் ஒரு சிக்கலான எழுத்தே அல்ல.




இதை இன்றைக்கு மாற்றமுடியுமா? மாற்றமுடியும் என்ற நம்பிக்கையில் யூனிகோடிடம் நாங்கள் பேசியிருந்தோம். தமிழ் அனைத்து எழுத்துக் குறியீடு என்பதை நாங்கள் பரிந்துரைத்தோம். முதலில் அவர்கள் குழம்பினார்கள், ஏன் நாங்கள் இந்தியஅரசோடு பேசும்பொழுது தமிழில் எந்தச் சிக்கலும் இருப்பதாகச் சொல்லவில்லையே என்றார்கள். 2007ல் யூனிகோடு தொழில்நுட்பக் குழுக்கூட்டத்தில் கலந்து கொண்டு நாங்கள் பேசியபொழுது இந்தக் கேள்வி இந்திய அரசின் பிரதிநிதியிடம் கேட்கப்பட்டது. இங்கே தமிழக அரசு ஒவ்வொரு எழுத்துக்கும் தனிக்குறியீடு வேண்டுமென்று கேட்கிறார்கள். ஏற்கனவே நாங்கள் பதினேழு ஆண்டுக்கு முன்னரே இந்திய அரசிடம் கேட்டபொழுது நீங்கள் எதுவும் சிக்கல் இருப்பதாக சொல்லவில்லையே, இப்போது இருப்பதாக சொல்கிறார்களே என்ன செய்வது என்றார்கள். அப்பொழுது இந்திய அரசின் பிரதிநிதி ஆணித்தரமாக கூறினார். பதினேழு ஆண்டுகளுக்கு முந்திய கதையை விடுங்கள். இந்தியா ஒரு கூட்டாட்சி, இந்திய மொழிகள் ஒவ்வொன்றிற்கும் அதற்கான தரப்பாடுகளை நிர்ணயிக்கும் முழுஉரிமையும் அந்தந்த மாநில அரசிற்கே உரியது. தமிழக அரசு தமிழுக்கென்று என்ன தரத்தை உருவாக்குகிறதோ அந்தத் தரத்தை இந்திய அரசு ஆதரிக்கும். இந்திய அரசு எந்த தரத்தை ஆதரிக்கிறதோ அந்தத் தரத்தை பன்னாட்டுத் தர அமைப்பிடம் (ISO) பரிந்துரைப்போம். அதனால் அரசுத்தரத்துக்கும் யூனிகோடுக்கும் வேறுபாடு இல்லாமல் என்ன செய்யலாம் என்று கேட்டார். இது யூனிகோடுக்கு அதிர்ச்சியளித்தது. ஏனென்றால் யூனிகோடு தரத்துக்கும், பன்னாட்டுத் தரம் அமைப்பின் தரமும் வேறுபட்டால் உலகில் இரண்டு தரங்களாகப் பிளவு வரும். யூனிகோடு, இதைச் சற்றிலும் விரும்பவில்லை. ஆனால், இந்திய அரசு அப்படி வலியுறுத்தியதால் முதலில் தமிழக அரசு ஒரு தரத்தை அறிவிக்கட்டும். பிறகு இந்தத் தரத்தில் தமிழகஅரசு பல ஆவணங்களை உருவாக்கட்டும். அதன்பிறகு இந்தியஅரசு அதை தரமாக ஏற்றுக்கொள்ளட்டும். பிறகு எங்களது கொள்கைகளை நாங்கள் மீண்டும் பரிசீலனை செய்கிறோம். நாங்கள் ஏற்கனவே அமைத்துள்ள ஒரு குறியீட்டை மாற்றுவது என்பது இயலாத காரியம்” என்று சொன்னார்கள். தமிழக அரசு 2010ல் தமிழ் அனைத்து எழுத்து குறியீட்டை தரமாக ஏற்றுக்கொண்டுவிட்டது.


தமிழக அரசின் ஆவணங்களில் தமிழ் யூனிகோடு குறியீட்டை ஒரு தரமாகவும் எங்கெல்லாம் தமிழ் யூனிகோடு -வேலை செய்யவில்லையோ அங்கெல்லாம் தமிழ் அனைத்தெழுத்து குறியீட்டை (TACE – Tamil All Character Encoding) மாற்றுத் தரமாகவும் ஏற்றுக்கொண்டு அறிவித்திருக்கிறது. அதன் பிறகும் 2010ல் இந்த அறிவிப்பு வந்த பிறகும் கூட இன்றுவரை தமிழக அரசின் வலைத்தளங்களில் யூனிகோடு -குறியீட்டிலும் சரி, அனைத்தெழுத்து குறியீட்டிலும் சரி அதிகமாக ஆவணங்கள் பதிப்பிக்கப்படவில்லை. அதனால் யூனிகோடைப் பொறுத்தவரை இது வெறும் வெற்றுப்பேச்சு. இந்த வெற்றுப்பேச்சிற்குப் பிறகு வேறு எந்த நோக்கும் இல்லையென்று அவர்கள் கருதுவதால் அனைத்து எழுத்துக் குறியீட்டிற்கான ஆதரவை அவர்கள் எந்தக்காலத்திலும் தெரிவிக்கப்போவதில்லை. இது மாறவேண்டுமென்றால் முதலில் தமிழ்நாட்டின் தமிழர்கள் தமிழில் இருக்கும் கணினி மென்பொருள்களைக் காசு கொடுத்து வாங்க வேண்டும். சந்தைக்கு ஏற்ப எந்த நிறுவனமும் இயங்கும். வாடிக்கையாளர்கள் எதை வாங்குகிறார்களோ அதை விற்பது எந்தவகையிலும் சாதாரண எண்ணமாக இருக்கும். தமிழர்கள் முதலில் காசுகொடுத்து வாங்கிப் பழகிக்கொள்ளவேண்டும். பிறகு தமிழக அரசு வெறும் தரத்தை அறிவிப்பதோடு மட்டும் நிற்காமல் இந்தத் தரத்தை அவர்கள் செயலுக்குக் கொண்டுவரவேண்டும். தமிழக அரசின் ஆண்டறிக்கைத் திட்டத்தையே இன்னும் யூனிகோடிலோ அல்லது அனைத்து எழுத்துக் குறியீட்டிலோ கொண்டுவரவில்லை. இன்னும் அவர்கள் பத்தாண்டுக்கும் பழமையான வானவில் – என்ற குறியீட்டில் தான் புழங்கிக்கொண்டிருக்கிறார்கள். இதற்குக் காரணம் என்னவென்றால் முதலமைச்சர் செயலகத்தில் இருப்பவர்களுக்கு வானவில் -மட்டும்தான் தெரியும். சென்ற ஆண்டில் அவர்கள் எதைப் பயன்படுத்தினார்களோ அதை வெட்டி ஒட்ட வேண்டும் என்றால் வானவில் -இருந்தால்போதும்.

வானவில்லிலிருக்கும் ஆவணங்களிலிருந்து சில பகுதிகளை வெட்டி எடுத்து யூனிகோடு ஆவணங்களில் ஒட்டினால் கட்டம் கட்டமாகத்தான் தெரியும். இவற்றிற்கெல்லாம் எளிமையான தீர்வுகள் இருக்கின்றன. யூனிகோடு -வந்தால் குழப்பமிருக்காது. வெட்டி ஒட்டுவதெல்லாம் மிக எளிமையான வேலை. இதை எத்தனை முறை வலியுறுத்தினாலும் அவர்களுக்குத் தெரியவில்லை. அண்மையில் 2014ல் தமிழக அரசு ஒரு ஆணையை பிறப்பித்தது. அந்த ஆணையின் படி தமிழக அரசின் துறைகள் அனைத்தும் தமிழகத்தின் மாவட்டம், வட்ட அரசுகள் யாராக இருந்தாலும் 2010ல் அறிவிக்கப்பட்ட அந்த யூனிகோடு/ அனைத்தெழுத்துக்குறியீட்டை மட்டும்தான் புழங்கவேண்டும் என்பது அரசின் ஆணை. அந்த அரசின் ஆணை இதுவரை முதலமைச்சரின் செயலகத்தில் கூடச் செயல்படவில்லை. எப்பொழுது அது முதலமைச்சர் அலுவலகத்தில் செயல்படுகிறதோ, அதன் பின்னால்தான் தமிழகமெங்கும் பரவும். அப்படிப் பரவினால்தான் உலகத்தில் இருக்கும் தரப்பாட்டுக்குழுக்கள் தமிழகம் சொல்வதை மதிப்பார்கள். நம்பேச்சு வெறும் வெற்றுப்பேச்சாக இருக்காமல் இருக்கவேண்டும் என்றால் செயல்பாட்டில் காட்டவேண்டும். தமிழர்கள் வாய்சொல் வீரர்கள், வேறு என்ன சொல்ல முடியும்?

அனைவரையும் முழுமையாக இந்த நேர்கோணலை படிக்க வேண்டுகிறேன். தொடர்ந்து படிக்க இங்கு செல்லுங்கள்
http://siragu.com/?p=14890

No comments: