Part #1
ગુજરાતી આર્ટિફિશિયલ ઇન્ટેલિજન્સઃ દિલ્હી દૂર છે, પણ સફર મધુર છે
વાત વિચાર - ગુજરાત સમાચાર - 13 જુલાઈ 2024
------------------------------
'ઓહ, આઈ ડાઇડ લાફિંગ...' આ વાક્યનો ગુજરાતી અનુવાદ 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ
થયું'
એમ ન
થાય. આ અંગ્રેજી વાક્યનો ગુજરાતી ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં
દુખવા લાગ્યું' એવો થવો
જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્સથી સજ્જ સિસ્ટમ ગુજરાતી કે કોઈ પણ પ્રાદેશિક ભાષાને
પ્રોસેસ કરતી વખતે જે-તે ભાષાની છટાઓ, સૂક્ષ્મતાઓ અને વિરોધિતાઓને બરાબર સમજે તે અનિવાર્ય છે…
---------------------------------------
ચેટજીપીટીનો
ધમાકેદાર પ્રવેશ થયો ને તે સાથે આખી દુનિયાના મોઢે આ બે શબ્દો ચડી ગયા -
આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI). આ ક્ષેત્રમાં આમ તો દાયકાઓથી કામ થઈ રહ્યું છે, પણ સમજોને કે તે આમઆદમી
પાસે નક્કર રીતે છેલ્લાં દોઢ-પોણાબે વર્ષ દરમિયાન પહોંચ્યું છે. ચેટજીપીટી, જેમિની જેવાં AI ટૂલ્સ આજે આપણે છૂટથી
વાપરતા થઈ ગયા છીએ. હવે તો વોટ્સએપ પણ 'મેટા
એઆઇ' વડે સુસજ્જ છે. કંઈ પણ
જાણવું હોય તો આપણે ફટાક્ કરતાં વોટસેએપ પર જઈને મેટા એઆઇ સાથે ચેટિંગ કરી કરી
શકીએ છીએ. ફરિયાદ
આ છેઃ ચેટજીપીટી અને મેટા એઆઈ પ્રકારનાં ટૂલ્સ, AI વડે સજ્જ ઉપકરણો ને એપ્લિકેશન્સ માત્ર
અંગ્રેજીમાં જ હોય તે કેમ ચાલે? આપણી ગુજરાતી ભાષાએ શો ગુનો કર્યો છે? જવાબ એ છે કે ગુજરાતી
ભાષાએ કોઈ ગુનો કર્યો નથી. આર્ટિફિશિયલ ઇન્ટેલિજન્સ અને ગુજરાતી ભાષાનું મધુર મિલન
લાંબા સમયથી આકાર લઈ રહ્યું છે.
થોડા
સમય પહેલાં સરદાર
વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી (એસવીઆઇટી)-વાસદ અને ગુજરાત સાહિત્ય અકાદમીએ
સંયુક્તપણે 'ડેવલપમેન્ટ
એન્ડ એક્સપાન્શન ઓફ ગુજરાતી લેંગ્વેજ કમ્પ્યુટેશનલ ટૂલ્સ થૂ્ર AI/NLP એપ્લિકેશન્સ' વિષય પર એક રાષ્ટ્રીય
પરિસંવાદનું આયોજન કર્યું હતું. આ સેમિનારના આયોજન સાથે સક્રિયપણે સંકળાયેલા
પ્રોફેસર બ્રિજેશ પંચાલ કહે છે, 'આર્ટિફિશિયલ ઇન્ટેલિજન્સમાં ગુજરાતી ભાષાના પ્રયોગની વાત
કરીએ તો હજુ આપણે પા-પા પગલી ભરી રહ્યા છીએ એમ કહી શકાય. ઇન ફેક્ટ, ભારતની લગભગ તમામ
પ્રાદેશિક ભાષાઓની આ જ સ્થિતિ છે. હિન્દી ઉપરાંત તમિળમાં પ્રમાણમાં થોડુંક વધારે
કામ થયું છે. તેનું મુખ્ય કારણ કદાચ એ હોઈ શકે કે અમેરિકામાં કાર્યરત કમ્પ્યુટર
એન્જિનીયરોમાં તમિળભાષીઓનું પ્રમાણ સારું એવું છે.'
એસવીઆઇટીના
કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટમાં આસિસ્ટન્ટ પ્રોફેસર તરીકે કાર્યરત બ્રિજેશ
પંચાલમાં એક ઉત્તમ કોમ્બિનેશન થયું છે. તેઓ ઉત્સાહી રિસર્ચર પણ છે અને સાથે સાથે
ગુજરાતી કવિ ને લેખક પણ છે. આ સેમિનારમાં લોકભારતી સણોસરા યુનિવર્સિટી પ્રો-વાઇસ
ચાન્સેલર વિશાલ ભાદાણીએ પોતાના પ્રેઝન્ટેશન દરમિયાન કહેલું કે, 'દુનિયાભરમાં હાલ આશરે સાત
હજાર જેટલી બોલીઓ (સ્પોકન લેંગ્વેજીસ) છે, જેમાંથી ફક્ત ૨૦ ભાષાઓ હાઇ રિસોર્સ લેંગ્વેજીસ (એચઆરએલ) છે, જ્યારે બાકીની બધી લૉ
રિસોર્સ લેંગ્વેજીસ (એલઆરલએલ) છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સના સંદર્ભમાં આપણી
ગુજરાતી ભાષા હાલ લૉ રિસોર્સ લેંગ્વેજ ગણાય. સવાલ એ છે કે આપણે ગુજરાતીને હાઇ
રિસોર્સ લેંગ્વેજ શી રીતે બનાવી શકીશું?'
વડોદરાની
મહારાજા સયાજીરાવ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્જિનીયરિંગ ડિપાર્ટમેન્ટના હેડ
પ્રોફેસર ડૉ. અપૂર્વ શાહ આર્ટિફિશિયલ ઇન્ટેલિજન્સના પૂરજેપૂરજા છુટ્ટા પાડીને કહે
છે,
'AI એટલે
કમ્પ્યુટર સાયન્સ, કોગ્નિટિવ
સાયન્સ (મનુષ્યના મન અને દિમાગ - માઇન્ડ અને બ્રેઇનનો અભ્યાસ), સાઇકોલોજી, ફિલોસોફી, લિંગ્વિસ્ટીક્સ
(ભાષાવિજ્ઞાાન) અને ન્યુરોસાયન્સનું મિશ્રણ... અન એઆઇના પાયામાં આ ત્રણ ગાણિતીક
તત્ત્વો છે - કમ્પ્યુટેશન, લોજિક અને પ્રોબેબિલિટી.'
ભારતમાં
સ્માર્ટફોન વાપરનારાઓની સંખ્યા 65 કરોડના આંકડાને ક્યારની પાર કરી ગઈ છે. આમાંના કેટલાય
સ્માર્ટફોનધારકો એવા છે જેમને અંગ્રેજીમાં બોલતાં ભલે ન ફાવતું હોય, પણ પોતાની માતૃભાષામાં તેઓ
સરસ રીતે કમ્યુનિકટ કરી શકે છે. આ વર્ગ માટે એવાં AI સ્પીચ એન્જિન ટૂલની જરૃર હોવાની કે
જેમાં ભારતીયો પોતાની માતૃભાષામાં બોલીને વોઇસ એપ્લિકેશન્સ સાથે ઇન્ટરેક્ટ કરી
શકે. વ્યાવહારિક સ્તરે કમ્પ્યુટર માણસ કરતાં વધારે બુદ્ધિશાળી છે, તે માણસના મગજ કરતાં વધારે
ડેટા સંગ્રહી શકે છે અને તેને ઉપયોગમાં મૂકી શકે છે, તેની કમ્પ્યુટેશનલ સ્પીડ માણસ કરતાં
અનેકગણી વધારે છે એવું આપણે સ્વીકારી લીધું છે. તેથી આપણે કમ્પ્યુટર સાથે મૌખિક કે
લિખિત રીતે 'વાત' કરતાં હોઈએ ત્યારે આપણને
અપેક્ષા હોય છે કે આપણે જે કંઈ બોલીએ છીએ કે ટાઇપ કરીએ છીએ તે બધું જ કમ્પ્યુટર
સાચેસાચું અને વધારે સારી રીતે સમજે. મોટા ભાગના ગુજરાતીઓ સ-શ-ષ આ ત્રણ અક્ષરોના
શુદ્ધ ઉચ્ચારણ કરતા નથી. છતાંય હું મારી રોજિંદી બોલીમાં કહું કે 'મહેસ અને સીતલનાં લગ્ન
થયાં'
તો પણ
ઇન્ટેલિજન્ટ કમ્પ્યુટરને ખબર પડી જવી જોઈએ કે હું ખરેખર 'મહેશ અને શીતલ' વિશે વાત કરી રહ્યો છું.
તમે 'તોતેર' બોલો, 'તોંતેર' બોલો કે 'ત્યોંતેર' બોલો, કમ્પ્યુટર ખબર પડી જવી
જોઈએ કે તમારા કહેવાનો મતલબ ૭૩ છે. તમે 'સાઠ', 'સાંઠ' કે 'સાંઇઠ' કંઈ પણ બોલો, કમ્પ્યુટરે તો ૬૦ જ
સમજવાનું છે. આનો સાદો અર્થ એ થયો કે ગુજરાતી બોલનારની લઢણ કોઈ પણ હોય -
કાઠિયાવાડી, અમદાવાદી, સુરતી, મહેસાણી, કોઈ પણ - કમ્પ્યુટરે
કન્ફ્યુઝ નહીં થવાનું ને સાચો જ જવાબ આપવાનો!
આ
આપણી મૂળભૂત અપેક્ષા છે, ગુજરાતી AI ટેકનોલોજી પાસેથી. આપણે એવુંય ઇચ્છીએ છીએ કે આપણે બંગાળી, તેલુગુ, ફ્રેન્ચ, ઇટાલિયન કે કોઈ પણ ભાષાનું
લખાણ યા ઓડિયો ક્લિપ AI ટેકનોલોજીથી સુસજ્જ કમ્પ્યુટરમાં ફીડ કરીએ તો તરત જ, રીઅલ ટાઇમમાં, સહેજ પણ ભૂલ વગરનો ગુજરાતી
અનુવાદ આપણને મળી જાય. એવું જ એનાથી ઊલટું પણ થવું જોઈએ. ગુજરાતી ભાષામાંથી અન્ય
કોઈ પણ ભાષામાં પટ્ પટ્ પટ્ કરતો રિવર્સ - અને ટકોરાબંધ - અનુવાદ થઈ જાય તો કેવી
મજા પડે.
ભાષાઓની
પોતાની આગવી છટા, આગવો
વૈભવ હોય છે. કમ્પ્યુટરનું આર્ટિફિશિયલ ઇન્ટેલિજન્સ જ્યારે ભાષાને પ્રોસેસ કરે
ત્યારે તે જે-તે ભાષાની સૂક્ષ્મતાઓને, વિરોધિતાઓ અને
પ્રતીકાત્મકતાને પણ સમજે તે જરૃરી છે. એક ઉદાહરણ લઈએ. કોઈ મા પોતાના દીકરાનાં
તોફાનોથી ત્રાસીને ધારો કે એવું બોલે છે કે, 'બસ બહુ થયું... મારું લોહી ન પી.' અહીં 'લોહી પીવું' તે એક રૃઢિપ્રયોગ છે. લોહી
પીવાની ક્રિયાને કંઈ શબ્દશઃ લેવાની ન હોય.
આર્ટિફિશિયલ
ઇન્ટેલિજન્ટ સિસ્ટમને તેની ખબર હોવી જોઈએ. એટલે જો મમ્મીના આ ઉદ્ગારનો 'ઇનફ... ડોન્ટ સક માય બ્લડ' એવો અંગ્રેજી અનુવાદ થાય
તો સિસ્ટમ ઇન્ટેલિજન્ટ નહીં, ઇડિયટ લાગે. એ જ રીતે અંગ્રેજીમાં એવું વાક્ય હોય કે 'ઓહ, આઈ ડાઇડ લાફિંગ...' તો એનો ગુજરાતી અનુવાદ એવો
ન થવો જોઈએ કે 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ
થયું.' આ
અંગ્રેજી વાક્યનો ગુજરાતી અનુવાદ નહીં, પણ ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં
દુખવા લાગ્યું' એવો થવો
જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્ટ સિસ્ટમ એટલી હદે સુસજ્જ હોવી જોઈએ કે એને જે-તે
ભાષાના અપશબ્દોની પણ પાક્કી ખબર હોય. જો આપણને નબળું, વિચિત્ર ગૂગલ ટ્રાન્સલેશન
પણ ચલાવી લેતા ન હોઈએ તો આર્ટિફિશિયલ ઇન્ટેલિજન્સ ટેક્નોલોજીથી સજ્જ એપ કે ટૂલ
પાસેથી કાચુંપાકું ટ્રાન્સલેશન શા માટે ચલાવી લઈએ?
ગુજરાતી
આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત કરીએ તો પ્રણવ મિસ્ત્રીની ટુ એઆઇ (TWO AI) કંપની દ્વારા લોન્ચ થયેલા
ચેટસૂત્ર (ChatSUTRA)ને
અજમાવવા જેવું છે. પ્લેસ્ટોર પરથી આ એપ આસાનીથી ડાઉનલોડ થઈ જશે. ચેટજીપીટી
પ્રકારની આ AI એપ છે, જે તમે ગુજરાતીમાં પૂછેલા
સવાલોના શુદ્ધ ગુજરાતીમાં જવાબો આપે છે. અલબત્ત, હજુ ચેટસૂત્રના ગુજરાતી વર્ઝનમાં
પરફેક્શન આવતાં ઘણી વાર લાગવાની છે, પણ આ સાચી દિશામાં થયેલો ઉત્તમ પ્રયાસ છે એ તો નક્કી.
ભારતનું નેશનલ AI પોર્ટલ INDIAai પણ આ દિશામાં નક્કરપણે આગળ
વધી રહ્યું છે. ગુજરાતી ઉપરાંત એકાધિક ભારતીય ભાષાઓમાં અહીં સમાંતરે કામ થઈ રહ્યું
છે.
ભાષાઓના
સંદર્ભમાં આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત ચાલતી હોય ને NLP (નેચરલ લેંગ્વેજ
પ્રોસેસિંગ) તથા મશીન લર્નિંગની ચર્ચા ન કરીએ તે કેમ ચાલે? તેના વિશે હવે પછી વાત
કરીશું.
- શિશિર
રામાવત
000000000
Part #2
અંગ્રેજી
જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો... (Part 2)
------------------
ચેટજીપીટી
જેવું એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી
નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ
રહ્યું છે.
------------------------
વાત
વિચાર - એડિટ પેજ - ગુજરાત સમાચાર - 20 જુલાઈ 2024
------------------------
ચેટજીપીટી
વાપરનાર પ્રત્યેક ગુજરાતીને ક્યારેક તો વિચાર આવી જ જતો હશેઃ ચેટજીપીટી ગુજરાતીમાં
પણ અંગ્રેજીની જેમ જ મસ્તમજાની રીતે ઓપરેટ થતું હોય તો કેવો જલસો પડે! ચેટજીપીટી એ
આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI)નું સૌથી લોકપ્રિય ટૂલ છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત
આવે ત્યારે ભેગેભેગા મશીન લર્નિંગ (ML) અને ડીપ લર્નિંગ (DL) જેવા શબ્દો પણ ઉછળતા રહે છે. શું છે તે?
આર્ટિફિશિયલ
ઇન્ટેલિજન્સને વિરાટ છત્રી
કલ્પી લો. આ એક એવી ટેકનોલોજિકલ વિદ્યા છે જે બુદ્ધિશાળી મશીનોનું સર્જન કરે છે. AIની નીચે મશીન લર્નિંગ ઊભું
છે. મશીન લર્નિંગ એવી સિસ્ટમ છે જે અનુભવના જોરે જાતે શીખતી જાય છે. મશીન
લર્નિંગની છત્રી નીચે ઓર એક ચીજ ઊભી છે - ડીપ લર્નિંગ. ડીપ લર્નિંગ એવી સિસ્ટમ છે, જે જુદાં જુદાં
નેટવર્ક્સનો ઉપયોગ કરીને ડેટા પ્રોસેસ કરે છે. ટૂંકમાં, આર્ટિફિશિયલ ઇન્ટેલિજન્સ
એક વિરાટ ચંદરવો છે, જેની નીચે ડીપ લર્નિંગ અને મશીન લર્નિંગ બન્ને સ્થાન પામે
છે.
મુખ્ય
વિષય પર પહોંચતા પહેલાં એ પણ જાણી લો કે ન્યુરલ નેટવર્ક એટલે શું. ન્યુરલ નેટવર્ક
એ AIની એવી પદ્ધતિ કે જેના થકી
કમ્પ્યુટર માણસના દિમાગની જેમ ડેટાને પ્રોસેસ કરતાં શીખે છે. ન્યુરલ નેટવર્ક
માણસની ઓછામાં ઓછી મદદ લઈને ઇન્ટેલિજન્ટ નિર્ણયો લેવામાં કમ્પ્યુટરને મદદ કરે છે.
ધારો કે, કમ્પ્યુટરને
બે જુદા જુદા ઇનપુટ મળે છે-
(૧) મને
જણાવો કે હું પેમેન્ટ કેવી રીતે કરી શકું?
(૨) હું
પૈસા ટ્રાન્સફર શી રીતે કરી શકું?
અહીં
પૂછવાની રીત અલગ છે, પણ ન્યુરલ નેટવર્ક તરત સમજી જશે કે સવાલ તો એક જ પૂછાયો છે.
ન્યુરલ નેટવર્કના ઉપયોગ ઘણી જગ્યાએ થાય છે. જેમ કે, મેડિકલ ઇમેજ ક્લાસિફિકેશન દ્વારા જે-તે
બીમારીનું નિદાન કરવું, સોશિયલ નેટવર્ક ફિલ્ટર અને બિહેવિયર ડેટા એનેલિસિસ દ્વારા
ટાર્ગેટેડ માર્કેટિંગ કરવું, ભૂતકાળના ડેટા અને ફાયનાન્શિયલ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ
કરીને આર્થિક આગાહીઓ કરવી, કેમિકલ કમ્પાઉન્ડ્સને આઇડેન્ટિફાય કરવી ઇત્યાદિ.
નેચરલ
લેંગ્વેજ પ્રોસેસિંગ (NLP)માં પણ ન્યુરલ નેટવર્કનો ભરપૂર ઉપયોગ થાય છે. નેચર લેંગ્વેજ
પ્રોસેસિંગ કઈ ચિડિયાનું નામ છે ભલા? જાવા, પાયથન, સી પ્લસ-પ્લસ આ બધી કમ્પ્યુટર લેંગ્વેજીસ છે. આમાંની કોઈ પણ
ભાષામાં કોડિંગ કરવામાં આવે એટલે કમ્પ્યુટરને પાક્કી સૂચના મળે કે એણે શું કરવાનું
છે. પણ આ તો કમ્પ્યુટર પ્રોગ્રામિંગ કે કોડિંગ થયું. તે કંઈ બધાને ન આવડે. આમ આદમી
તો એમ જ ઇચ્છે છે કે કમ્પ્યુટરને એની સીધીસાદી, રોજિંદા વપરાશની ભાષા આવડવી જોઈએ.
કમ્પ્યુટર તે સમજે પણ છે અને સાધારણ ભાષામાં અપાયેલી સૂચનાનો અમલ પણ કરે છે. આ જ
નેચરલ લેંગ્વેજ પ્રોસેસિંગ છે. NLP આર્ટિફિશિયલ ઇન્ટેલિજન્સનું બહુ મહત્ત્વનું અંગ છે. સિરી
અને એલેક્સા જેવા વોઇસ-કંટ્રોલ્ડ આસિસ્ટન્ટ્સ એ NLPનાં ઉત્તમ ઉદાહરણો છે. જુદી જુદી
વેબસાઇટ્સ પર દેખાતા ચેટબોટ પણ NLPના જોરે કામ કરે છે.
અંગ્રેજી
ચેટજીપીટી જેવું જ ફાંકડું ગુજરાતી ચેટજીપીટી હોવું જોઈએ - જો તમારા મનમાં પણ આવી
ફુલગુલાબી ઝંખના જાગતી હોય તો સમજી લો કે ચેટજીપીટી જેવા એડવાન્સ્ડ લાર્જ લેંગ્વેજ
મોડલ (LLM) સુધી
પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ
સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.
ગુજરાતી
NLP સિસ્ટમ વિકસાવવાની શરૃઆત
ક્યારે થઈ હતી? પ્રાપ્ય
માહિતીના આધારે, સંભવતઃ
સૌથી પહેલું નામ સમીર અંતાણીનું સામે
આવે છે. અમેરિકાની પેન્સિલવેનિયા સ્ટેટ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્ડ
એન્જિનીયરિંગ ડિપાર્ટમેન્ટમાં કાર્યરત આ રિસર્ચરે છેક ૧૯૯૯માં 'ગુજરાતી કેરેક્ટર
રેકગ્નિશન' નામનું
રિસર્ચ પેપર પ્રકાશિત કર્યું હતું. એમના સાથી રિસર્ચર હતાં, લલિતા અગ્નિહોત્રી
(ફિલિપ્સ રિસર્ચ બ્રિઆર્કલિફ, ન્યુ યોર્ક). ૨૦૦૬માં
પ્રોફેસર એસ.કે. શાહ અને એ. શર્માએ સંયુક્તપણે પેપર પ્રકાશિત કર્યું, જેનું શીર્ષક હતું, 'ડિઝાઇન એન્ડ
ઇમ્પ્લિમેન્ટેશન ઓફ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન સિસ્ટમ ટુ રેકગ્નાઇઝ ગુજરાતી
સ્ક્રિપ્ટ યુઝીંગ ટેમ્પલેટ મેચિંગ'. ત્યાર બાદ ૨૦૦૭માં 'વેવલેટ
ફિચર બેઝ્ડ કન્ફ્યુઝન કેરેક્ટર સેટ્સ ફોર ગુજરાતી સ્ક્રિપ્ટ' નામનું રિસર્ચ પેપર
પ્રકાશિત થયું, જેના
લેખકો હતા જીજ્ઞેશ ધોળકિયા (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ મેથ, એમ.એસ. યુનિવર્સિટી-
વડોદરા), અર્ચિત
યાજ્ઞિાક (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ આર્ટ્સ, પારૃલ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી-વડોદરા) અને અતુલ નેગી
(ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર એન્ડ ઇન્ફો સાયન્સીસ, યુનિવર્સિટી ઓફ હૈદરાબાદ). ૨૦૧૦થી ડૉ.
અપૂર્વ દેસાઈનાં રિસર્ચ પેપર્સ કતારબદ્ધ પ્રકાશિત થતાં ગયાં. ૧૯૯૪થી વીર નર્મદ
સાઉથ ગુજરાત યુનિર્વસિટીમાં કાર્યરત પ્રોફેસર (ડૉ.) અપૂર્વ દેસાઈ ડિપાર્ટમેન્ટ ઓફ
કમ્પ્યુટર સાયન્સના હેડ છે. એમનું સૌથી પહેલું પેપર હતું, 'ગુજરાતી હેન્ડરિટન ન્યુમરલ
ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન through ન્યુરલ નેટવર્ક'.
ગુજરાતી
NLPની વાત આવે ત્યારે ડો.
અપૂર્વ દેસાઈ અને અને પ્રોફેસર પુષ્પક ભટ્ટાચાર્ય (આઇઆઇટી-બોમ્બે)નાં નામ
આદરપૂર્વક લેવાં પડે, કેમ કે આ ક્ષેત્રમાં તેમણે ખૂબ મહત્ત્વપૂર્ણ અને પાયારૃપ
કામ કર્યાં છે. ડો. ભટ્ટાચાર્યે વર્ડનેટ નામનો લેક્સિકન ડેટાબેઝ તૈયાર કર્યો છે. આ
કામ કરવામાં એમને પ્રોફેસર સી.કે. ભેંસડેડીયા અને પ્રોફેસર બ્રિજેશ ભટ્ટનો મજબૂત
સાથ મળ્યો હતો.
'ઓપ્ટિકલ
કેરેક્ટર રેકગ્નિશન (OCR) એ નેચરલ લેંગ્વેજ પ્રોસેસિંગનો જ એક ભાગ છે,' ડો. અપૂર્વ દેસાઈ કહે છે, 'OCR થકી કમ્પ્યુટર હસ્તલિખિત
ગુજરાતી અક્ષરોને ઓળખી લે છે. તમે નોટપેડ પર સ્ટાઇલસ (પેન જેવા ઉપકરણ)થી
ગુજરાતીમાં લખો તો તેને ટેક્સ્ટમાં કન્વર્ટ કરી દેવું, સાદાં ગુજરાતી વાક્યોના
વ્યાકરણનું એનેલિસિસ કરીને એનું કલર કોડિંગ કરવું વગેરે કામ અમે કર્યાં છે. સ્ટિલ
ઇમેજ એટલે કે તસવીરમાં છપાયેલા આંકડાને ઓળખીને અલગ તારવી લેવા, વીડિયોમાં દેખાતા ગુજરાતી
શબ્દોને એનેલાઇઝ કરીને છૂટા પાડવા - આ બધાં કામ હજુ ચાલી રહ્યાં છે.'
ગુજરાતી
NLPના રિસર્ચરો સામે સૌથી
પહેલી ઊભી થતી સમસ્યા આ છેઃ લેંગ્વેજ મોડલને ટ્રેઇન કરવામાં ઉપયોગી બને તેવો શુદ્ધ
ગુજરાતી લખાણનો વિશાળ ડેટાસેટ ઉપલબ્ધ નથી! ઓનલાઇન ગુજરાતી કોન્ટેન્ટ તો પુષ્કળ
અવેલેબલ છે, પણ ભાષા, જોડણી તેમજ વ્યાકરણની
દ્રષ્ટિએ તે શુદ્ધ હોતું નથી. જ્યારે તમે NLP મોડલ બનાવી રહ્યા હો ત્યારે કમ્પ્યુટરના પેટમાં કાચીપાકી
ગુજરાતી ભાષા ઠૂંસી દો તે કેમ ચાલે? કમ્પ્યુટરને શરૃઆતથી જ શુદ્ધતમ ગુજરાતી ભાષા શીખવીએ તો જ એ
સંતોષકારક પરિણામ આપે. આપણે સાચી જોડણી અને સાચા વ્યાકરણવાળી ગુજરાતી ભાષામાં
જવાબો ઇચ્છતા હોઈએ તો NLP મોડલમાં ચોખ્ખામાં ચોખ્ખો ગુજરાતી ડેટા ફીડ કરવો પડે. આ
દ્રષ્ટિએ ભગવદ્ગોમંડળ એક ઉત્તમ ડેટાસેટ છે, પણ કોણ જાણે કેમ, રિસર્ચરો માટે તે ઉપલબ્ધ નથી.
'ધારો કે
ભગવદ્ગોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તે પૂરતું નથી,' ડો. અપૂર્વ દેસાઈ કહે છે.
કેમ? ગુજરાતી ભાષાનું
ટેકનોલોજીકરણ કરવા મથી રહેલા રિસર્ચરોને સામે કેવા કેવા અવરોધો ઊભા થતા રહે છે? આ અવરોધો દૂર કરવાના ઉપાયો
ખરા? આના જવાબો હવે પછી.
00000000000
Part #3
ગૂગલ ટ્રાન્સલેશન એપ ગુજરાતી અનુવાદમાં ગરબડ કેમ કરે છે? (પાર્ટ 3)
વાત-વિચાર - એડિટ પેજ - ગુજરાત સમાચાર (July 27, 2024)
---------------------------
'ગુજરાતી ભાષાને બચાવવા માટે ગુજરાતીમાં બોલવું-લખવું-પુસ્તકો છાપવાં-ગુજરાતી ફિલ્મો-નાટકોને ઉત્તેજન આપવું... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. ગુજરાતી ભાષાને જો જીવતી-ધબકતી રાખવી હશે તો તેને વહેલાસર આધુનિક ટેકનોલોજી સાથે જોડયા વગર નહીં ચાલે.'

આપણે જો ઇચ્છતા હોઈએ કે આટફિશિયલ ઇન્ટેલિજન્સ (AI)નો ઉપયોગ જેમાં થયો હોય તેવાં ટૂલ્સ, ચેટબોટ વગેરે અંગ્રેજીની જેમ ગુજરાતીમાં પણ મસ્ત રીતે, બિલકુલ સ્મૂધલી ઓપરેટ થાય તો તે માટે નિષ્ણાતોએ હજુ અભિમન્યુની જેમ ઘણા કોઠા ભેદવાના બાકી છે. આપણે ગયા શનિવારે જોયું કે ચેટજીપીટી એ એ AIની સૌથી લોકપ્રિય એપ્લિકેશન છે. ચેટજીપીટી એક લાર્જ લેંગ્વેજ મોડલ (LLM) છે, અને ત્યાં સુધી પહોંચવા માટે ગુજરાતી ભાષાએ સૌથી પહેલાં તો અફલાતૂન નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) મોડલ વિકસાવવા પડે. NLP મોડલ એટલે આપણે રોજબરોજ જે ગુજરાતી ભાષા બોલીએ-લખીએ છીએ તે કમ્પ્યુટર ભૂલ વગર સમજી લે, તેવું સોફ્ટવેર.કમ્પ્યુટરને ગુજરાતી ભાષા શીખવતી વખતે લખાણનો જે ડેટાસેટ ઉપયોગમાં લેવામાં આવે તે જોડણી અને વ્યાકરણની દ્રષ્ટિએ શુદ્ધતમ હોય તે ખૂબ જરૂરી છે. ભગવોમંડળ અને સાર્થ જોડણી કોષ આ પ્રકારના આદર્શ ડેટાસેટ છે. તકલીફ એ છે કે લેંગ્વેજ મોડલને ટ્રેઇન કરવા માટે રિસર્ચરો માટે આ બન્ને સોર્સની સોફ્ટ કોપી યા તો એક્સેલ ફાઈલ્સ ઉપલબ્ધ નથી!
વીર નર્મદ સાઉથ ગુજરાત યુનિવર્સિટીના ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ ડો. અપૂર્વ દેસાઈ કહે છે, 'ઘારો કે ભગવોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તેને પ્રોસેસ કરીને આખો ડેટાબેઝ તૈયાર કરવો પડે. તમને ઉદાહરણ આપીને સમજાવું. 'છોકરો' અને 'છોકરી' આ બે શબ્દોનું મૂળ રૂપ 'છોકર' છે. 'છોકર'ને 'ઓ' પ્રત્યય લાગે તો 'છોકરો' બને, અને 'ઈ' પ્રત્યય લાગે તો 'છોકરી' બને. શબ્દના મૂળ રૂપ સુધી જવાની પ્રક્રિયાને 'સ્ટેમિંગ' કહે છે. એક એવો ડેટાસેટ હોવો જોઈએ, જેમાં પ્રત્યેક ગુજરાતી શબ્દનું મૂળ રૂપ લખાયેલું હોય. સ્ટેમિંગ પછી 'ટેગિંગ'ની પ્રક્રિયા કરવી પડે. ટેગિંગ એટલે જે-તે શબ્દ સંજ્ઞા(નાઉન) છે, ક્રિયાપદ (વર્બ) છે કે વિશેષણ (એડજેક્ટિવ) ઇત્યાદિ છે તે ચિહ્નિત કરવું. ધારો કે આવું વાક્ય છે: 'રવિ નામનો છોકરો હતી.' આ ખોટું વાક્ય છે. કમ્પ્યુટરને ખબર હોવી જોઈએ કે રવિ એક નામ (સંજ્ઞા) છે અને તે પુલ્લિંગ છે, તેથી આ વાક્યના અંતે 'હતી' નહીં પણ 'હતો' આવે. જો વ્યવસ્થિત સ્ટેમિંગ અને ટેગિંગ સાથેનો ડેટાસેટ પ્રોસેસ થયો હોય તો જ કમ્પ્યુટરને ખબર પડે કે ગુજરાતી વાક્યમાં નાઉન - વર્બ કયા છે, એની સિકવન્સ કેવી હોવી જોઈએ અને તે વ્યાકરણને અનુરૂપ છે કે કેમ. અમે આ પ્રકારનો આવશ્યક ડેટાસેટ વિકસાવ્યો છે, પણ તે સરળ વાક્યો પૂરતો સીમિત છે.'
અંગ્રેજીમાં બે જ જાતિ (જેન્ડર) છે - સ્ત્રીલિંગ અને પુલ્લિંગ, જ્યારે ગુજરાતીમાં ત્રીજી નાન્યતર જાતિ પણ છે. તેથી ગુજરાતી NLP ડેવલપ કરવાનું કામ પણ વધારે જટિલ બની જાય છે. પ્રોફેસર બ્રિજેશ ભટ્ટ આ વાત વિગતવાર સમજાવે છે, 'ગુજરાતીમાં પુલ્લિંગ, સ્ત્રીલિંગ અને નપુંસકલિંગ એમ ત્રણેય જાતિના પ્રત્યય ક્રિયાપદને પણ લાગે છે. જેમ કે 'રાજેશ આવ્યો', 'ગીતા આવી', 'કૂતરૂં આવ્યું'. અંગ્રેજીમાં જ્યારે 'Rajesh comes' કે 'Geeta comes' કહીએ ત્યારે કોઈ લિંગભેદ દેખાતો નથી, પણ અંગ્રેજીમાંથી ગુજરાતીમાં વાક્યનું ભાષાંતર કરીએ ત્યારે મશીને આ લિંગભેદ જાતે નક્કી કરવો પડે. આ ઉપરાંત ગુજરાતીમાં પ્રેરક વાક્ય એક વિશિષ્ટ રચના છે, જે અંગ્રેજી અનુવાદ કરવામાં મુશ્કેલી ઊભી કરે છે. ઉદાહરણ તરીકે આ વાક્ય: 'ગીતાએ લતા પાસે ગીત ગવડાવ્યું'. હવે, 'ગવડાવ્યું' શબ્દનું ભાષાંતર કરવા માટે અંગ્રેજીમાં એક કરતાં વધારે શબ્દોનો ઉપયોગ કરવો પડે (Geeta made Lata sing). ગુજરાતી અને અંગ્રેજીના શબ્દોની ગોઠવણી પણ અલગ છે. અંગ્રેજીમાં સામાન્યપણે સબ્જેક્ટ, વર્બ, ઓબ્જેક્ટ - આ ક્રમમાં વાક્ય બનાવવામાં આવે છે (Ram eats an apple), જ્યારે ગુજરાતીમાં કર્તા, કર્મ અને ક્રિયાપદ - આ પ્રમાણે વાક્ય ગોઠવાય છે (રામે સફરજન ખાધું). ભાષાંતર કરતી વખતે મશીને ગોઠવણની આ ફેરબદલ પણ ધ્યાનમાં લેવી પડે.'
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં કાર્યરત ડો. બ્રિજેશ ભટ્ટે આઈઆઇટી-બોમ્બેના પ્રોફેસર પુષ્કર ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ નેચરલ લેંગ્વેજ પ્રોસેસિંગ વિષયમાં પીએચ.ડી કર્યું છે. તેઓ ગુજરાતી NLPની ટેકનિકલ બાજુને સરળતાથી સહેજ વધારે ઊઘાડી આપે છે, 'જુઓ, ગુજરાતીમાં નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ સોફ્ટવેર બનાવવા માટે ત્રણ તબક્કામાં કામ કરવું પડે. એક છે, લેક્સિકલ (શબ્દાનુવાદ), બીજું છે સિન્ટેક્ટિક (વાક્યરચના) અને ત્રીજું, સિમેન્ટિક (અર્થઘટન). લેક્સિકલ તબક્કામાં શબ્દો, તેને લાગતા પ્રત્યયો અને જો ભાષાંતર કરવું હોય તો બીજી ભાષાનો શબ્દો જાણવા પડે. મોર્ફોલોજીકલ એનેલિસિસ એ લેક્સિકલ પ્રોસેસિંગનું પહેલું પગથિયું છે. ઉદાહરણ તરીકે, 'ગવડાવ્યું' આ શબ્દનું મૂળ રૂપ 'ગાવું' છે અને તેને 'ડાવ્યું' પ્રત્યય લાગ્યો છે, એવું મોર્ફોલોજી એનેલિસિસ દ્વારા મશીનને સમજાવી શકાય. બીજા તબક્કામાં વાક્યનું બંધારણ ચકાસવું પડે, જેના માટે પાર્ટ ઓફ સ્પીચ ટેગિંગ, પાર્સીંગ જેવા સોફ્ટવેરની જરૂર પડે. પાર્ટ ઓફ સ્પીચ ટેગર વાક્યમાં આવતા શબ્દોમાં નામ, ક્રિયાપદ, વિશેષણ વગેરે ઓળખી બતાવે, અને પાર્સર વાક્યમાં રહેલા શબ્દો એકબીજા સાથે કેવી રીતે જોડાઇને અર્થ બનાવે છે તે કહી શકે. ઉદાહરણ તરીકે, 'રામે ગીત ગાતા શ્યામને જોયો'. અહીં ગીત રામ ગાય છે કે શ્યામ? તે સમજવામાં ગોટાળો થઇ શકે. પાર્સર શબ્દોને એકબીજા સાથે જોડી અર્થઘટનમાં થતી ગરબડને દૂર કરે છે. છેલ્લા સિમેન્ટિક તબક્કામાં, શબ્દોના અર્થ અને તે અર્થોથી પૂરા વાક્યનો અર્થ કાઢવો પડે. એક શબ્દના ઘણા અર્થ હોઈ શકે છે. તેથી જ વર્ડ સેન્સ ડિસએમ્બિગ્યુએશન એ કદાચ NLPનો સૌૈથી અઘરો વિષય છે. જેમ કે, 'મારો ફોટો પડી ગયો' અને 'મારો મોબાઇલ પડી ગયો' આ બંને વાક્યોમાં 'પડી ગયો'નો અર્થ અલગ છે. આ પ્રકારના ગુજરાતી શબ્દપ્રયોગોનો અન્ય ભાષામાં અનુવાદ કરતી વખતે મશીન બાપડું ચકરાવે ન ચડી જાય અને અર્થનો અનર્થ ન કરી નાખે તેનું ધ્યાન રાખવું પડે.'
ગૂગલ ટ્રાન્સલેશન એપમાં ગુજરાતી વાક્યોના અંગ્રેજીમાં ને અંગ્રેજી વાક્યોના ગુજરાતીમાં ચક્રમ જેવા અનુવાદ થાય છે તેનું કારણ આ જ! અત્યારે ઉપકરણોમાં જે ગુજરાતી NLP વપરાય છે તેમાં ઉપર વર્ણવી તે ટેકનિકલ પ્રક્રિયાઓ પર પૂરતું કામ જ થયું નથી. પછી બિચારું મશીન ભાષાંતર કરવામાં લોચા જ મારેને! વળી, આપણે ગુજરાતી ભાષા બોલતી કે લખતી વખતે છૂટથી અંગ્રેજી-હિન્દી શબ્દો ભભરાવતા હોઈએ છીએ. નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ માટે આવી ખિચડી ભાષા પાછો એક અલગ જ પડકાર છે.
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં પ્રો. સી. કે. ભેંસદડીયાના નેતૃત્વમાં ગુજરાતી વર્ડનેટ અને ઇંગ્લિશ-ગુજરાતી મશીન ટ્રાન્સલેશન સંબંધિત કામ થાય છે. પ્રો. ભેંસદડીયા લગભગ છેલ્લાં ૩૦ વર્ષથી AIના ક્ષેત્રમાં વિદ્યાર્થીઓને તૈયાર કરી રહ્યા છે. તેમની સાથે પ્રો. બ્રિજેશ ભટ્ટ નેચરલ NLP પર કાર્ય કરી રહ્યા છે. પ્રો. ભેંસદડીયાએ આઇઆઇટી-બોમ્બેના પ્રો. પુષ્પક ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ એમટેક કર્યું છે. હાલ બન્ને નિષ્ણાત ડીપ લનગ બેઝ્ડ ન્યુરલ મશીન ટ્રાન્સલેશન પદ્ધતિથી અંગ્રેજીથી ગુજરાતી અનુવાદની સિસ્ટમ બનાવવામાં કાર્યરત છે.
ઘણું કામ છે, લાંબી સફર છે. કમ્પ્યુટરને ગુજરાતી શીખવવાનું કામ ઘણાં વર્ષોથી ત્રણ સ્તરે કામ થઈ રહ્યું છે - એકેડેમિશિયન્સ દ્વારા, સરકાર દ્વારા અને ગૂગલ-માઇક્રોસોફ્ટ જેવી જાયન્ટ કંપનીઓ દ્વારા. તકલીફ એ છે કે આ ત્રણેયને જોડતી કડીઓ કાં ગાયબ છે યા તો બહુ ઓછી છે. તેથી છૂટુંછવાયું કામ થતું રહે છે, પણ ત્રણેય જૂથને એકબીજાના જ્ઞાનનો લાભ જેટલો મળવો જોઈએ તેટલો મળતો નથી.
વાસદ સ્થિત સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટના આસિસ્ટન્ટ પ્રોફેસર
Brijesh Panchal કહે છે, 'ભાષા અને ટેકનોલોજી બન્ને જાણતા હોય તેવા લોકો બહુ ઓછા છે. વિદેશમાં આ બન્ને ક્ષેત્રોને સાંકળી લે તેવા કોમ્પોઝિટ કોર્સ ચાલે છે, જે આપણે ત્યાં પણ હોવા જોઈએ. આપણે બીએ-એમએના વિદ્યાર્થીઓને કહેવું જોઈએ કે તમે માત્ર ટીચર કે એવું કશું જ નહીં, ભાષાશાસ્ત્રી પણ બની શકો છો. કમ્પ્યુટર એન્જિનીયરિંગ ભણતા વિદ્યાર્થીઓને ભાષાવિજ્ઞાાન તરફ આકર્ષણ હોતું નથી. તેમને પણ કહેવું જોઈએ કે જો તમે ગુજરાતી પુસ્તકો વાંચશો તો NLPમાં વધારે સમજ પડશે.'
અપૂર્વ દેસાઈ કહે છે, 'એક કોમન પ્લેટફોર્મ હોવું જોઈએ જ્યાં એકેડેમિશિયન્સ, ગુજરાતી સાહિત્ય પરિષદ અને ગુજરાતી સાહિત્ય અકાદમી જેવી સંસ્થાઓ, ભાષાવિદો, કમ્પ્યુટર એન્જિનીયરો અને સરકારના પ્રતિનિધિઓ એકબીજા સાથે ઇન્ટરેક્ટ કરી શકે કે જેથી ગુજરાતી ભાષાને આધુનિક ટેકનોલોજી સાથે વણી લેવાનું કામ સડસડાટ આગળ વધે, બોટલનેક ન સર્જાય અને કામનું અકારણ ડુપ્લિકેશન ન થાય. મારૂં તો સૂચન છે કે સાહિત્ય પરિષદ અને અકાદમીએ સાહિત્યકારોની સાથે સાથે આ ક્ષેત્રમાં ઉત્તમ કામગીરી કરનાર એકેડેમિશિયન્સ અને એન્જિનીયરોને પણ અલાયદા અવોર્ડ્ઝ આપવાનું શરૂ કરવું જોઈએ કે જેથી તેમનો ઉત્સાહ વધે અને વધારે પ્રતિભાઓ આ દિશામાં આકર્ષાય.'
ગુજરાતી ભાષા બચાવવાની બૂમરાણ વર્ષોથી એકધારી થઈ રહી છે. બ્રિજેશ પંચાલ સમાપન કરે છે, 'ગુજરાતી પુસ્તકો છાપવા ને વાંચવા, ગુજરાતી નાટકો-ફિલ્મોને ઉત્તેજન આપવું, ગુજરાતીમાં જ બોલવાનો આગ્રહ રાખવો... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. જો સાચી, શુદ્ધ ગુજરાતી ભાષાને આવનારી પેઢીઓ માટે રિલેવન્ટ રાખવી હશે તો ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કર્યા વગર છૂટકો નથી.'
ગુજરાતીમાં સુંદર રીતે ઓપરેટ થતાં AI ટૂલ્સની કલ્પના ખરેખર મોહક છે. આ સ્તર સુધી પહોંચવાનું કામ અઘરૂં જરૂર છે પણ અશક્ય નથી, જો યોગ્ય લોકો દ્વારા, યોગ્ય દિશામાં યોગ્ય પ્રયત્નો થાય તો!