Showing posts with label આર્ટિફિશિયલ ઇન્ટેલિજન્સ. Show all posts
Showing posts with label આર્ટિફિશિયલ ઇન્ટેલિજન્સ. Show all posts

Saturday, August 24, 2024

યુવલ નોઆહ હરારીના આગામી પુસ્તક 'NEXUS: A Brief History of Information Networks from the Stone Age to AI'માં શું છે?

તમારી પોસ્ટને લાઇક, કમેન્ટ, શેર અને ફોરવર્ડ કરનારા કોણ છે? જીવતાજાગતા માણસ કે AI ચેટબોટ?

--------------------

આપણે સોશિયલ મીડિયા પર પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે બોટ તરીકે ઓળખાતી AIની કરામત છે. બોટ આપણા જેવી જ ભાષામાં વાત કરીને સામેના માણસને કન્વિન્સ કરી શકે છે. એક્સ (ટ્વિટર)ના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે!

--------------------

વાત-વિચાર 0 એડિટ પેજ 0 ગુજરાત સમાચાર (24 ઓગસ્ટ, શનિવાર)



યુવલ નોઆહ હરારી એક એવા મેગાસ્ટાર લેખકનું નામ છે, જેમનું પુસ્તક છપાઈને બહાર પડે તે પહેલાં જ જબરદસ્ત ચર્ચામાં આવી જાય છે. ભૂતપૂર્વ અમેરિકન પ્રેસિડન્ટ બરાક ઓબામા, માઇક્રોસોફ્ટના સ્થાપક બિલ ગેટ્સથી માંડીને સત્તર-અઢાર વર્ષના કોલેજિયનો સુધીના સૌ કોઈ યુવલ હરારીના વાચકો ને ચાહકો છે. ઇઝરાયલમાં યુનિવસટી ઓફ જેરુસલામના ઇતિહાસ વિભાગમાં લેકચરર તરીકે કામ કરતા આ ૪૮ વર્ષીય લેખકનું સૌથી પહેલું પુસ્તક 'સેપિઅન્સ' ૨૦૧૧માં બહાર પડયું હતું અને ત્યારથી એમની ગણના દુનિયાના સૌથી સ્માર્ટ, સૌથી અરિજિનલ અને સૌથી મહત્ત્વના ચિંતકો-લેખકોમાં થવા માંડી હતી. 'સેપિઅન્સ' પછી 'હોમો ડુસ' (એટલે કે સુપર હ્યુમન અથવા મહામાનવ), 'ટ્વેન્ટીવન લેસન્સ ફોર ધ ટ્વેન્ટીફર્સ્ટ સેન્ચુરી' અને 'અનસ્ટોપેબલ અસ'ના ત્રણ ભાગ આવ્યા. યુવલ હરારીનાં પુસ્તકોના ૬૫થી વધારે ભાષાઓમાં અનુવાદ થઈ ચૂક્યાં છે અને અત્યાર સુધીમાં તેની ટોટલ ચાડાચાર કરોડ નકલો વેચાઈ ચૂકી છે. યુવલનાં નોન-ફિક્શન પુસ્તકોના વિષય ગંભીર હોય, પણ એમની લેખનશૈલી એવી રસાળ છે કે વાચકને જાણે કોઈ દિલધડક જાસૂસી નવલકથા વાંચી રહ્યા હોય તેવી અનુભૂતિ થાય.
યુવલ હરારીનું નવું પુસ્તક આવતા મહિને પ્રકાશિત થવાનું છે. એનું ટાઇટલ છે, 'નેક્સસઃ અ બ્રિફ હિસ્ટ્રી ઓફ ઇન્ફોર્મેશન નેટવર્ક્સ ફ્રોમ ધ સ્ટોન એજ ટુ AI'. યુવલે AI એટલે કે આટફિશિયલ ઇન્ટેલિજન્સ વિશે ઓલરેડી ખૂબ બધું લખ્યું છે, વકતવ્યો આપ્યાં છે, ઇન્ટરવ્યુઝમાં વાતો કરી છે. શું હશે આ પુસ્તકમાં? યુવલ હરારી કહે છે, 'અત્યારે આપણે માહિતીના પ્રચંડ ઉત્કાંતિયુગમાંથી પસાર થઈ રહ્યા છીએ. માનવજાતના ઇતિહાસમાં માહિતીનો આવો મહાવિસ્ફોટ અગાઉ ક્યારેય નોંધાયો નથી. માહિતીના મહાવિસ્ફોટને સમજતાં પહેલાં આપણે તે જાણવું પડે કે આ બધું આવ્યું છે ક્યાંથી. આપણે આપણી જાતને 'હોમો સેપિઅન્સ' કહીએ છીએ. 'હોમો સેપિઅન્સ' એટલે, સાદી ભાષામાં, ડાહ્યો માણસ, સમજદાર માણસ... પણ માણસ જો ખરેખર એટલો જ સમજદાર હોત તો આપણે આટલી હદે આત્મઘાતક પ્રવૃત્તિઓ શા માટે કરીએ છીએ? છેલ્લાં એક લાખ વર્ષ દરમિયાન માણસજાતે પુષ્કળ તાકાત એકઠી કરી છે, નવી નવી શોધો કરી છે, અદભુત સિદ્ધિઓ મેળવી છે. આમ છતાંય એવું કેમ બન્યું કે આજે આપણા અસ્તિત્ત્વ સામે ખતરો પેદા થયો છે? આખેઆખી માણસજાતનું નિકંદન નીકળી જાય એવી પરિસ્થિતિ કેવી રીતે ઊભી થઈ ગઈ? પૃથ્વી પર પર્યાવરણનું સંતુલન તૂટું-તૂટું થઈ રહ્યું છે. એવું શું બન્યું કે આજે આપણે પર્યાવરણ અને ટેકનોલોજીના સ્તરે આત્મહત્યાની ધાર સુધી ધકેલાઈ ગયા છીએ?'

માણસજાતને તાકાત ક્યાંથી મળે છે? એકમેકને સાથસહકાર આપીને, એકબીજાની પડખે ઊભા રહીને, એકમેક સાથે જોડાયેલા રહીને. બીજા શબ્દોમાં કહીએ તો, અસંખ્ય લોકોને આવરી લેતાં વિરાટ નેટવર્ક બનાવીને. આવાં વિરાટકાય નેટવર્ક્સનું સર્જન કેવી રીતે થાય અને તે શી રીતે ટકી રહે? યુવલ હરારી કહે છે, 'કથા-કહાણીઓ, કલ્પનાઓ અને ભ્રાંતિઓ ફેલાવીને. એકવીસમી સદીમાં આટફિશિયલ ઇન્ટેલિજન્સ (AI) ભ્રાંતિઓનું જબરદસ્ત નેટવર્ક ઘડી કાઢે, તેવું બને. શક્ય છે કે આવનારી પેઢીઓ આ ભ્રમજાળમાં એટલી હદે અટવાઈ જાય કે તેમને ખબર જ ન પડે કે સાચું છે ને ખોટું શું છે, ને તેઓ તે જાણવાની કોશિશ સુધ્ધાં ન કરે...'

આ, અલબત્ત, વર્સ્ટ-કેસ સિનારીયો યા તો સંભાવના છે. જો સમયસર ચેતી જઈશું તો બાજી હજુય આપણા હાથમાં છે. યુવલ હરારીના આગામી પુસ્તક 'નેક્સસ'માં આ જ વિષયને બહેલાવવામાં આવ્યો છે. થોડા દિવસો પહેલાં યુનાઇટેડ નેશન્સ દ્વારા યુવલ હરારી અને 'ધ અટલાન્ટિક' નામના પ્રતિતિ અમેરિકન મેગેઝિનના સીઈઓ નિકોલસ થોમ્પસન વચ્ચે સંવાદનું આયોજન થયું હતું. આ અફલાતૂન સંવાદમાં યુવલ હરારી કહે છે, 'આપણે એટલે કે માણસો નવાં નવાં સાધનો અને ટેકનોલોજી વાપરવાના મામલામાં બહુ હોશિયાર નથી. આપણે પુષ્કળ ભૂલો કરીએ છીએ. બીજા કશાયને નુક્સાન ન થાય તે રીતે જે-તે ટેકનોલોજીથી યોગ્ય રીતે કેવી રીતે વાપરવી તે શીખતાં આપણને ખૂબ વાર લાગે છે. ઔદ્યોગિક ક્રાંતિનું ઉદાહરણ લો. યંત્રોને શી રીતે વાપરવા જોઈતા હતાં તેની આપણને પૂરેપૂરી સમજ પડે તે પહેલાં આપણે ભયંકર ભૂલો કરી ચૂક્યા હતા. સામ્રાજ્યવાદ, નાઝીવાદ, કમ્યુનિઝમ, બબ્બે વિશ્વયુદ્ધ આ બધાનાં મૂળમાં યંત્રોને સાચી રીતે ન વાપરી શકવાની આપણી અણસમજ તો છે. ઘણા લોકો AI રિવોલ્યુશનની સરખામણી ઔદ્યોગિક ક્રાંતિ સાથે કરે છે, પણ હકીકત એ છે કે આપણે ઔદ્યોગિક ક્રાંતિ કરવામાં જે ભૂલો કરી છે એવી ભૂલો જો AI ક્રાંતિમાં કરીશું તો પૃથ્વી પરથી માનવજાતનો સદંતર સફાયો નીકળી જશે. આપણે એ પણ સમજવું જોઈએ કે આપણે AI કેવી રીતે વાપરવી જોઈએ તે શીખી રહ્યા છીએ ત્યારે સાથે સાથે AI પણ માણસને કઈ રીતે 'વાપરવો' તે શીખી રહ્યું છે! તેથી અગાઉની શોધખોળોનાં સારાં-ખરાબ પાસાં સમજવામાં આપણે જેટલો સમય લીધો છે એટલો સમય આપણને AIના કેસમાં નહીં મળે. આપણી પાસે આ વખતે ભૂલો કરવાનો અવકાશ બહુ જ ઓછો છે.'

પણ હજુ તો AI પા-પા પગલી ભરી રહ્યું છે. ન કરે નારાયણ, પણ AI પાસે ન્યુક્લિયર વોર શરૃ કરાવીને માણસજાતનો ખાત્મો બોલાવી દેવાની તાકાત આવી શકે છેે... પણ આ સ્થિતિ આવતાં હજુ તો બહુ વાર લાગવાની છે, રાઇટ? યુવલ હરારી કહે છે, 'મને નથી લાગતું કે AI હોલિવુડની સાયન્સ ફિક્શન ફિલ્મોમાં જોવા મળે છે એવું વિશ્વવિનાશક ક્યારેય બનશે, પણ ખતરો આ છેઃ અત્યારે ઘોડિયામાં હિંચકા ખાતા AI પાસે ઓલરેડી એટલી તાકાત આવી ચૂકી છે કે તે આંધાધૂંધી ફેલાવી શકે. સોશિયલ મીડિયાનો દાખલો લો. AIને ઓલરેડી ખબર પડી ગઈ છે કે જો ચોક્કસ પ્રકારના આલ્ગોરિધમની મદદથી લોકો ઉશ્કેરાઈ જાય એવા લખાણ, વીડિયો કે તસવીરોને વધુમાં વધુ ફેલાવવામાં આવે તો જનતાનું ધ્યાન વધારે ખેંચી શકાય છે, તેઓ વધારે સમય સુધી સોશિયલ મીડિયા પર પડયાપાથર્યા રહે છે. માણસના સ્વભાવનું આ પાસું AIએ બરાબર ઓળખી લીધું છે, જેને કારણે દુનિયામાં કેટલાય દેશોમાં સરકારો અને સંસ્થાઓ પ્રત્યે અવિશ્વાસનું ગંદું વાતાવરણ પેદા થઈ ગયું છે. એક્સ (ટ્વિટર), ફેસબુક, યુટયુબ, વોટ્સએપ જેવાં સોશિયલ મીડિયા પર જે પ્રકારનાં નરેટિવ ચાલે છે અને લોકો વચ્ચે જે કક્ષાના સંવાદ થાય છે તે જુઓ. આ કેટલી અફસોસજનક વાત છે કે આપણી પાસે આજે ઇન્ફર્મેશન ટેકનોલોજીનું સૌથી સોફિસ્ટિકેટેડ માધ્યમ છે, પણ લોકો હવે કોઈ મુદ્દે સહમત થઈ શકતા નથી. તેમની વચ્ચે અર્થપૂર્ણ સંવાદ જ થઈ શકતો નથી.'

આજે આપણે સોશિયલ મીડિયા પર જે પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે તે ચેટબોટ દ્વારા લખાયું છે. ચેટબોટ એટલે એક પ્રકારનો કમ્પ્યુટર પ્રોગ્રામ, જે આપણા જેવી જ ભાષામાં વાત કરે, તમે જે પૂછો એના વિશે માહિતી આપે, વગેરે. આજકાલ બેન્ક્સ, ઓનલાઇન શોપિંગ માટેની વેબસાઇટ્સ વગેરે ચેટબોટનો ભરપૂર ઉપયોગ કરે છે. આ તો ખેર, ચેટબોટનો સારો ઉપયોગ થયો, પણ આ જ ચેટબોટ (અથવા ટૂંકમાં બોટ)નો ઉપયોગ સોશિયલ મીડિયા પર ફેક ન્યુઝ ફેલાવવામાં, લોકો ઉશ્કેરાઈ જાય તેવાં લખાણ-તસવીરો ફેલાવામાં પણ થાય છે. ધારો કે એક્સ (ટ્વિટર) પર હિંદુ-મુસ્લિમ મુદ્દે પોસ્ટ નીચે કમેન્ટ્સમાં ભયંકર ગરમાગરમી જામી હોય ત્યારે તમને ખબર હોતી નથી આમાંની અમુક કમેન્ટ્સ ચેટબોટ દ્વારા જનરેટ થયેલી હોઈ શકે છે. એક અંદાજ પ્રમાણે આજની તારીખે એક્લા એક્સ પર ૨.૨ કરોડથી લઈને ૬.૫ કરોડ જેટલા બોટ્સ એક્ટિવ છે. એક્સના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે! મતલબ કે એક્સ વાપરનારા કરોડો યુઝર્સ માણસ છે જ નહીં, મશીન છે, જે આપણા કરતાંય વધારે અસરકારક ભાષામાં, સામેનો માણસ બિલકુલ કન્વિન્સ થઈ જાય તે રીતે કમ્યુનિકેટ કરી શકે છે. ચેટજીપીટી-ફોર જેવા લાર્જ લેંગ્વેજ મોડલ (એલએલએમ)ને કારણે આ શક્ય બન્યું છે. આ તો ફ્ક્ત એક એક્સની વાત થઈ. ફેસબુક, યુટયુબ, વોટ્સએપ અને અન્ય સોશિયલ મીડિયાને ગણતરીમાં લઈએ તો વિચારો કે કુલ બોટ્સનો આંકડો ક્યાં પહોંચતો હશે! આમાંના અમુક બોટ જેન્યુઇન યા તો સર્વિસ બેઝ્ડ હોવાના, પણ અન્ય લાખો-કરોડો બોટનો ઉપયોગ રાજકીય કે અન્ય પ્રકારની વિચારધારાના પ્રચાર માટે, ફેક ન્યુઝ ફેલાવવા, રીટ્વિટ કરવા અને જે-તે પોસ્ટને શેર તથા ફોરવર્ડ કરવા માટે થઈ શકે છે, થાય છે.

'વાંધો ચેટબોટની સંકલ્પના સામે નથી,' યુવલ હરારી સ્પષ્ટતા કરે છે, 'જેમ કે AI ડોક્ટર (મેડિકલ ક્ષેત્રનો ચેટબોટ) તો આશીર્વાદરૃપ છે, પણ અહીં આપણને ખબર હોય છે કે હું જેની સાથે ચેટિંગ કરી રહ્યો છું તે હાડમાંસનો બનેલો સાચો ડોક્ટર નથી, પણ એક બોટ છે. ખતરો ત્યારે પેદા થાય છે, જ્યારે બોટની ખરી ઓળખ છુપાવીને તેને અસલી માણસ તરીકે સોશિયલ મીડિયા પર છુટ્ટો મૂકી દેવામાં આવે છે. જ્યારે આપણે સોશિયલ મીડિયા પર કોઈની પણ સાથે વાતચીત કરતા હોઈએ ત્યારે આપણને ખબર હોવી જોઈએ કે સામેવાળો અસલી માણસ છે કે AIએ પેદા કરેલો બોટ છે. જે દેશોમાં લોકશાહી છે ત્યાં AIનો આ પ્રકારનો ઉપયોગ કેટલો ખતરનાક થઈ શકે છે તે વિચારો.'

- શિશિર રામાવત


Like
Comment
Send
Share

Sunday, July 28, 2024

આર્ટિફિશિયલ ઇન્ટેલિજન્સના જમાનામાં ગુજરાતી ભાષા ક્યાં ઊભી છે?

Part #1

ગુજરાતી આર્ટિફિશિયલ ઇન્ટેલિજન્સઃ દિલ્હી દૂર છે, પણ સફર મધુર છે 

વાત વિચાર - ગુજરાત સમાચાર - 13 જુલાઈ 2024

------------------------------

'ઓહ, આઈ ડાઇડ લાફિંગ...' આ વાક્યનો ગુજરાતી અનુવાદ 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ થયું' એમ ન થાય. આ અંગ્રેજી વાક્યનો ગુજરાતી ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં દુખવા લાગ્યું' એવો થવો જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્સથી સજ્જ સિસ્ટમ ગુજરાતી કે કોઈ પણ પ્રાદેશિક ભાષાને પ્રોસેસ કરતી વખતે જે-તે ભાષાની છટાઓ, સૂક્ષ્મતાઓ અને વિરોધિતાઓને બરાબર સમજે તે અનિવાર્ય છે…

---------------------------------------


ચેટજીપીટીનો ધમાકેદાર પ્રવેશ થયો ને તે સાથે આખી દુનિયાના મોઢે આ બે શબ્દો ચડી ગયા - આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI). આ ક્ષેત્રમાં આમ તો દાયકાઓથી કામ થઈ રહ્યું છે, પણ સમજોને કે તે આમઆદમી પાસે નક્કર રીતે છેલ્લાં દોઢ-પોણાબે વર્ષ દરમિયાન પહોંચ્યું છે. ચેટજીપીટી, જેમિની જેવાં AI ટૂલ્સ આજે આપણે છૂટથી વાપરતા થઈ ગયા છીએ. હવે તો વોટ્સએપ પણ 'મેટા એઆઇ' વડે સુસજ્જ છે. કંઈ પણ જાણવું હોય તો આપણે ફટાક્ કરતાં વોટસેએપ પર જઈને મેટા એઆઇ સાથે ચેટિંગ કરી કરી શકીએ છીએ. ફરિયાદ આ છેઃ ચેટજીપીટી અને મેટા એઆઈ પ્રકારનાં ટૂલ્સ, AI વડે સજ્જ ઉપકરણો ને એપ્લિકેશન્સ માત્ર અંગ્રેજીમાં જ હોય તે કેમ ચાલે? આપણી ગુજરાતી ભાષાએ શો ગુનો કર્યો છે? જવાબ એ છે કે ગુજરાતી ભાષાએ કોઈ ગુનો કર્યો નથી. આર્ટિફિશિયલ ઇન્ટેલિજન્સ અને ગુજરાતી ભાષાનું મધુર મિલન લાંબા સમયથી આકાર લઈ રહ્યું છે.

થોડા સમય પહેલાં સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી (એસવીઆઇટી)-વાસદ અને ગુજરાત સાહિત્ય અકાદમીએ સંયુક્તપણે 'ડેવલપમેન્ટ એન્ડ એક્સપાન્શન ઓફ ગુજરાતી લેંગ્વેજ કમ્પ્યુટેશનલ ટૂલ્સ થૂ્ર AI/NLP એપ્લિકેશન્સ' વિષય પર એક રાષ્ટ્રીય પરિસંવાદનું આયોજન કર્યું હતું. આ સેમિનારના આયોજન સાથે સક્રિયપણે સંકળાયેલા પ્રોફેસર બ્રિજેશ પંચાલ કહે છે, 'આર્ટિફિશિયલ ઇન્ટેલિજન્સમાં ગુજરાતી ભાષાના પ્રયોગની વાત કરીએ તો હજુ આપણે પા-પા પગલી ભરી રહ્યા છીએ એમ કહી શકાય. ઇન ફેક્ટ, ભારતની લગભગ તમામ પ્રાદેશિક ભાષાઓની આ જ સ્થિતિ છે. હિન્દી ઉપરાંત તમિળમાં પ્રમાણમાં થોડુંક વધારે કામ થયું છે. તેનું મુખ્ય કારણ કદાચ એ હોઈ શકે કે અમેરિકામાં કાર્યરત કમ્પ્યુટર એન્જિનીયરોમાં તમિળભાષીઓનું પ્રમાણ સારું એવું છે.'

એસવીઆઇટીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટમાં આસિસ્ટન્ટ પ્રોફેસર તરીકે કાર્યરત બ્રિજેશ પંચાલમાં એક ઉત્તમ કોમ્બિનેશન થયું છે. તેઓ ઉત્સાહી રિસર્ચર પણ છે અને સાથે સાથે ગુજરાતી કવિ ને લેખક પણ છે. આ સેમિનારમાં લોકભારતી સણોસરા યુનિવર્સિટી પ્રો-વાઇસ ચાન્સેલર વિશાલ ભાદાણીએ પોતાના પ્રેઝન્ટેશન દરમિયાન કહેલું કે, 'દુનિયાભરમાં હાલ આશરે સાત હજાર જેટલી બોલીઓ (સ્પોકન લેંગ્વેજીસ) છે, જેમાંથી ફક્ત ૨૦ ભાષાઓ હાઇ રિસોર્સ લેંગ્વેજીસ (એચઆરએલ) છે, જ્યારે બાકીની બધી લૉ રિસોર્સ લેંગ્વેજીસ (એલઆરલએલ) છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સના સંદર્ભમાં આપણી ગુજરાતી ભાષા હાલ લૉ રિસોર્સ લેંગ્વેજ ગણાય. સવાલ એ છે કે આપણે ગુજરાતીને હાઇ રિસોર્સ લેંગ્વેજ શી રીતે બનાવી શકીશું?'

વડોદરાની મહારાજા સયાજીરાવ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્જિનીયરિંગ ડિપાર્ટમેન્ટના હેડ પ્રોફેસર ડૉ. અપૂર્વ શાહ આર્ટિફિશિયલ ઇન્ટેલિજન્સના પૂરજેપૂરજા છુટ્ટા પાડીને કહે છે, 'AI એટલે કમ્પ્યુટર સાયન્સ, કોગ્નિટિવ સાયન્સ (મનુષ્યના મન અને દિમાગ - માઇન્ડ અને બ્રેઇનનો અભ્યાસ), સાઇકોલોજી, ફિલોસોફી, લિંગ્વિસ્ટીક્સ (ભાષાવિજ્ઞાાન) અને ન્યુરોસાયન્સનું મિશ્રણ... અન એઆઇના પાયામાં આ ત્રણ ગાણિતીક તત્ત્વો છે - કમ્પ્યુટેશન, લોજિક અને પ્રોબેબિલિટી.'

ભારતમાં સ્માર્ટફોન વાપરનારાઓની સંખ્યા 65 કરોડના આંકડાને ક્યારની પાર કરી ગઈ છે. આમાંના કેટલાય સ્માર્ટફોનધારકો એવા છે જેમને અંગ્રેજીમાં બોલતાં ભલે ન ફાવતું હોય, પણ પોતાની માતૃભાષામાં તેઓ સરસ રીતે કમ્યુનિકટ કરી શકે છે. આ વર્ગ માટે એવાં AI સ્પીચ એન્જિન ટૂલની જરૃર હોવાની કે જેમાં ભારતીયો પોતાની માતૃભાષામાં બોલીને વોઇસ એપ્લિકેશન્સ સાથે ઇન્ટરેક્ટ કરી શકે. વ્યાવહારિક સ્તરે કમ્પ્યુટર માણસ કરતાં વધારે બુદ્ધિશાળી છે, તે માણસના મગજ કરતાં વધારે ડેટા સંગ્રહી શકે છે અને તેને ઉપયોગમાં મૂકી શકે છે, તેની કમ્પ્યુટેશનલ સ્પીડ માણસ કરતાં અનેકગણી વધારે છે એવું આપણે સ્વીકારી લીધું છે. તેથી આપણે કમ્પ્યુટર સાથે મૌખિક કે લિખિત રીતે 'વાત' કરતાં હોઈએ ત્યારે આપણને અપેક્ષા હોય છે કે આપણે જે કંઈ બોલીએ છીએ કે ટાઇપ કરીએ છીએ તે બધું જ કમ્પ્યુટર સાચેસાચું અને વધારે સારી રીતે સમજે. મોટા ભાગના ગુજરાતીઓ સ-શ-ષ આ ત્રણ અક્ષરોના શુદ્ધ ઉચ્ચારણ કરતા નથી. છતાંય હું મારી રોજિંદી બોલીમાં કહું કે 'મહેસ અને સીતલનાં લગ્ન થયાં' તો પણ ઇન્ટેલિજન્ટ કમ્પ્યુટરને ખબર પડી જવી જોઈએ કે હું ખરેખર 'મહેશ અને શીતલ' વિશે વાત કરી રહ્યો છું. તમે 'તોતેર' બોલો, 'તોંતેર' બોલો કે 'ત્યોંતેર' બોલો, કમ્પ્યુટર ખબર પડી જવી જોઈએ કે તમારા કહેવાનો મતલબ ૭૩ છે. તમે 'સાઠ', 'સાંઠ' કે 'સાંઇઠ' કંઈ પણ બોલો, કમ્પ્યુટરે તો ૬૦ જ સમજવાનું છે. આનો સાદો અર્થ એ થયો કે ગુજરાતી બોલનારની લઢણ કોઈ પણ હોય - કાઠિયાવાડી, અમદાવાદી, સુરતી, મહેસાણી, કોઈ પણ - કમ્પ્યુટરે કન્ફ્યુઝ નહીં થવાનું ને સાચો જ જવાબ આપવાનો!

આ આપણી મૂળભૂત અપેક્ષા છે, ગુજરાતી AI ટેકનોલોજી પાસેથી. આપણે એવુંય ઇચ્છીએ છીએ કે આપણે બંગાળી, તેલુગુ, ફ્રેન્ચ, ઇટાલિયન કે કોઈ પણ ભાષાનું લખાણ યા ઓડિયો ક્લિપ AI ટેકનોલોજીથી સુસજ્જ કમ્પ્યુટરમાં ફીડ કરીએ તો તરત જ, રીઅલ ટાઇમમાં, સહેજ પણ ભૂલ વગરનો ગુજરાતી અનુવાદ આપણને મળી જાય. એવું જ એનાથી ઊલટું પણ થવું જોઈએ. ગુજરાતી ભાષામાંથી અન્ય કોઈ પણ ભાષામાં પટ્ પટ્ પટ્ કરતો રિવર્સ - અને ટકોરાબંધ - અનુવાદ થઈ જાય તો કેવી મજા પડે.

ભાષાઓની પોતાની આગવી છટા, આગવો વૈભવ હોય છે. કમ્પ્યુટરનું આર્ટિફિશિયલ ઇન્ટેલિજન્સ જ્યારે ભાષાને પ્રોસેસ કરે ત્યારે તે જે-તે ભાષાની સૂક્ષ્મતાઓને, વિરોધિતાઓ અને પ્રતીકાત્મકતાને પણ સમજે તે જરૃરી છે. એક ઉદાહરણ લઈએ. કોઈ મા પોતાના દીકરાનાં તોફાનોથી ત્રાસીને ધારો કે એવું બોલે છે કે, 'બસ બહુ થયું... મારું લોહી ન પી.' અહીં 'લોહી પીવું' તે એક રૃઢિપ્રયોગ છે. લોહી પીવાની ક્રિયાને કંઈ શબ્દશઃ લેવાની ન હોય.

આર્ટિફિશિયલ ઇન્ટેલિજન્ટ સિસ્ટમને તેની ખબર હોવી જોઈએ. એટલે જો મમ્મીના આ ઉદ્ગારનો 'ઇનફ... ડોન્ટ સક માય બ્લડ' એવો અંગ્રેજી અનુવાદ થાય તો સિસ્ટમ ઇન્ટેલિજન્ટ નહીં, ઇડિયટ લાગે. એ જ રીતે અંગ્રેજીમાં એવું વાક્ય હોય કે 'ઓહ, આઈ ડાઇડ લાફિંગ...' તો એનો ગુજરાતી અનુવાદ એવો ન થવો જોઈએ કે 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ થયું.' આ અંગ્રેજી વાક્યનો ગુજરાતી અનુવાદ નહીં, પણ ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં દુખવા લાગ્યું' એવો થવો જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્ટ સિસ્ટમ એટલી હદે સુસજ્જ હોવી જોઈએ કે એને જે-તે ભાષાના અપશબ્દોની પણ પાક્કી ખબર હોય. જો આપણને નબળું, વિચિત્ર ગૂગલ ટ્રાન્સલેશન પણ ચલાવી લેતા ન હોઈએ તો આર્ટિફિશિયલ ઇન્ટેલિજન્સ ટેક્નોલોજીથી સજ્જ એપ કે ટૂલ પાસેથી કાચુંપાકું ટ્રાન્સલેશન શા માટે ચલાવી લઈએ?

ગુજરાતી આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત કરીએ તો પ્રણવ મિસ્ત્રીની ટુ એઆઇ (TWO AI) કંપની દ્વારા લોન્ચ થયેલા ચેટસૂત્ર (ChatSUTRA)ને અજમાવવા જેવું છે. પ્લેસ્ટોર પરથી આ એપ આસાનીથી ડાઉનલોડ થઈ જશે. ચેટજીપીટી પ્રકારની આ AI એપ છે, જે તમે ગુજરાતીમાં પૂછેલા સવાલોના શુદ્ધ ગુજરાતીમાં જવાબો આપે છે. અલબત્ત, હજુ ચેટસૂત્રના ગુજરાતી વર્ઝનમાં પરફેક્શન આવતાં ઘણી વાર લાગવાની છે, પણ આ સાચી દિશામાં થયેલો ઉત્તમ પ્રયાસ છે એ તો નક્કી. ભારતનું નેશનલ AI પોર્ટલ INDIAai પણ આ દિશામાં નક્કરપણે આગળ વધી રહ્યું છે. ગુજરાતી ઉપરાંત એકાધિક ભારતીય ભાષાઓમાં અહીં સમાંતરે કામ થઈ રહ્યું છે.

ભાષાઓના સંદર્ભમાં આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત ચાલતી હોય ને NLP (નેચરલ લેંગ્વેજ પ્રોસેસિંગ) તથા મશીન લર્નિંગની ચર્ચા ન કરીએ તે કેમ ચાલે? તેના વિશે હવે પછી વાત કરીશું.

- શિશિર રામાવત

000000000

Part #2

અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો... (Part 2)

------------------

ચેટજીપીટી જેવું એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

------------------------

વાત વિચાર - એડિટ પેજ - ગુજરાત સમાચાર - 20 જુલાઈ 2024

------------------------

ચેટજીપીટી વાપરનાર પ્રત્યેક ગુજરાતીને ક્યારેક તો વિચાર આવી જ જતો હશેઃ ચેટજીપીટી ગુજરાતીમાં પણ અંગ્રેજીની જેમ જ મસ્તમજાની રીતે ઓપરેટ થતું હોય તો કેવો જલસો પડે! ચેટજીપીટી એ આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI)નું સૌથી લોકપ્રિય ટૂલ છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત આવે ત્યારે ભેગેભેગા મશીન લર્નિંગ (ML) અને ડીપ લર્નિંગ (DL) જેવા શબ્દો પણ ઉછળતા રહે છે. શું છે તે?

આર્ટિફિશિયલ ઇન્ટેલિજન્સને વિરાટ છત્રી કલ્પી લો. આ એક એવી ટેકનોલોજિકલ વિદ્યા છે જે બુદ્ધિશાળી મશીનોનું સર્જન કરે છે. AIની નીચે મશીન લર્નિંગ ઊભું છે. મશીન લર્નિંગ એવી સિસ્ટમ છે જે અનુભવના જોરે જાતે શીખતી જાય છે. મશીન લર્નિંગની છત્રી નીચે ઓર એક ચીજ ઊભી છે - ડીપ લર્નિંગ. ડીપ લર્નિંગ એવી સિસ્ટમ છે, જે જુદાં જુદાં નેટવર્ક્સનો ઉપયોગ કરીને ડેટા પ્રોસેસ કરે છે. ટૂંકમાં, આર્ટિફિશિયલ ઇન્ટેલિજન્સ એક વિરાટ ચંદરવો છે, જેની નીચે ડીપ લર્નિંગ અને મશીન લર્નિંગ બન્ને સ્થાન પામે છે.

મુખ્ય વિષય પર પહોંચતા પહેલાં એ પણ જાણી લો કે ન્યુરલ નેટવર્ક એટલે શું. ન્યુરલ નેટવર્ક એ AIની એવી પદ્ધતિ કે જેના થકી કમ્પ્યુટર માણસના દિમાગની જેમ ડેટાને પ્રોસેસ કરતાં શીખે છે. ન્યુરલ નેટવર્ક માણસની ઓછામાં ઓછી મદદ લઈને ઇન્ટેલિજન્ટ નિર્ણયો લેવામાં કમ્પ્યુટરને મદદ કરે છે. ધારો કે, કમ્પ્યુટરને બે જુદા જુદા ઇનપુટ મળે છે-

(૧) મને જણાવો કે હું પેમેન્ટ કેવી રીતે કરી શકું?

(૨) હું પૈસા ટ્રાન્સફર શી રીતે કરી શકું?

અહીં પૂછવાની રીત અલગ છે, પણ ન્યુરલ નેટવર્ક તરત સમજી જશે કે સવાલ તો એક જ પૂછાયો છે. ન્યુરલ નેટવર્કના ઉપયોગ ઘણી જગ્યાએ થાય છે. જેમ કે, મેડિકલ ઇમેજ ક્લાસિફિકેશન દ્વારા જે-તે બીમારીનું નિદાન કરવું, સોશિયલ નેટવર્ક ફિલ્ટર અને બિહેવિયર ડેટા એનેલિસિસ દ્વારા ટાર્ગેટેડ માર્કેટિંગ કરવું, ભૂતકાળના ડેટા અને ફાયનાન્શિયલ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને આર્થિક આગાહીઓ કરવી, કેમિકલ કમ્પાઉન્ડ્સને આઇડેન્ટિફાય કરવી ઇત્યાદિ.

નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP)માં પણ ન્યુરલ નેટવર્કનો ભરપૂર ઉપયોગ થાય છે. નેચર લેંગ્વેજ પ્રોસેસિંગ કઈ ચિડિયાનું નામ છે ભલા? જાવા, પાયથન, સી પ્લસ-પ્લસ આ બધી કમ્પ્યુટર લેંગ્વેજીસ છે. આમાંની કોઈ પણ ભાષામાં કોડિંગ કરવામાં આવે એટલે કમ્પ્યુટરને પાક્કી સૂચના મળે કે એણે શું કરવાનું છે. પણ આ તો કમ્પ્યુટર પ્રોગ્રામિંગ કે કોડિંગ થયું. તે કંઈ બધાને ન આવડે. આમ આદમી તો એમ જ ઇચ્છે છે કે કમ્પ્યુટરને એની સીધીસાદી, રોજિંદા વપરાશની ભાષા આવડવી જોઈએ. કમ્પ્યુટર તે સમજે પણ છે અને સાધારણ ભાષામાં અપાયેલી સૂચનાનો અમલ પણ કરે છે. આ જ નેચરલ લેંગ્વેજ પ્રોસેસિંગ છે. NLP આર્ટિફિશિયલ ઇન્ટેલિજન્સનું બહુ મહત્ત્વનું અંગ છે. સિરી અને એલેક્સા જેવા વોઇસ-કંટ્રોલ્ડ આસિસ્ટન્ટ્સ એ NLPનાં ઉત્તમ ઉદાહરણો છે. જુદી જુદી વેબસાઇટ્સ પર દેખાતા ચેટબોટ પણ NLPના જોરે કામ કરે છે.

અંગ્રેજી ચેટજીપીટી જેવું જ ફાંકડું ગુજરાતી ચેટજીપીટી હોવું જોઈએ - જો તમારા મનમાં પણ આવી ફુલગુલાબી ઝંખના જાગતી હોય તો સમજી લો કે ચેટજીપીટી જેવા એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

ગુજરાતી NLP સિસ્ટમ વિકસાવવાની શરૃઆત ક્યારે થઈ હતી? પ્રાપ્ય માહિતીના આધારે, સંભવતઃ સૌથી પહેલું નામ સમીર અંતાણીનું સામે આવે છે. અમેરિકાની પેન્સિલવેનિયા સ્ટેટ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્ડ એન્જિનીયરિંગ ડિપાર્ટમેન્ટમાં કાર્યરત આ રિસર્ચરે છેક ૧૯૯૯માં 'ગુજરાતી કેરેક્ટર રેકગ્નિશન' નામનું રિસર્ચ પેપર પ્રકાશિત કર્યું હતું. એમના સાથી રિસર્ચર હતાં, લલિતા અગ્નિહોત્રી (ફિલિપ્સ રિસર્ચ બ્રિઆર્કલિફ, ન્યુ યોર્ક). ૨૦૦૬માં પ્રોફેસર એસ.કે. શાહ અને એ. શર્માએ સંયુક્તપણે પેપર પ્રકાશિત કર્યું, જેનું શીર્ષક હતું, 'ડિઝાઇન એન્ડ ઇમ્પ્લિમેન્ટેશન ઓફ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન સિસ્ટમ ટુ રેકગ્નાઇઝ ગુજરાતી સ્ક્રિપ્ટ યુઝીંગ ટેમ્પલેટ મેચિંગ'. ત્યાર બાદ ૨૦૦૭માં 'વેવલેટ ફિચર બેઝ્ડ કન્ફ્યુઝન કેરેક્ટર સેટ્સ ફોર ગુજરાતી સ્ક્રિપ્ટ' નામનું રિસર્ચ પેપર પ્રકાશિત થયું, જેના લેખકો હતા જીજ્ઞેશ ધોળકિયા (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ મેથ, એમ.એસ. યુનિવર્સિટી- વડોદરા), અર્ચિત યાજ્ઞિાક (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ આર્ટ્સ, પારૃલ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી-વડોદરા) અને અતુલ નેગી (ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર એન્ડ ઇન્ફો સાયન્સીસ, યુનિવર્સિટી ઓફ હૈદરાબાદ). ૨૦૧૦થી ડૉ. અપૂર્વ દેસાઈનાં રિસર્ચ પેપર્સ કતારબદ્ધ પ્રકાશિત થતાં ગયાં. ૧૯૯૪થી વીર નર્મદ સાઉથ ગુજરાત યુનિર્વસિટીમાં કાર્યરત પ્રોફેસર (ડૉ.) અપૂર્વ દેસાઈ ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ છે. એમનું સૌથી પહેલું પેપર હતું, 'ગુજરાતી હેન્ડરિટન ન્યુમરલ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન through ન્યુરલ નેટવર્ક'.

ગુજરાતી NLPની વાત આવે ત્યારે ડો. અપૂર્વ દેસાઈ અને અને પ્રોફેસર પુષ્પક ભટ્ટાચાર્ય (આઇઆઇટી-બોમ્બે)નાં નામ આદરપૂર્વક લેવાં પડે, કેમ કે આ ક્ષેત્રમાં તેમણે ખૂબ મહત્ત્વપૂર્ણ અને પાયારૃપ કામ કર્યાં છે. ડો. ભટ્ટાચાર્યે વર્ડનેટ નામનો લેક્સિકન ડેટાબેઝ તૈયાર કર્યો છે. આ કામ કરવામાં એમને પ્રોફેસર સી.કે. ભેંસડેડીયા અને પ્રોફેસર બ્રિજેશ ભટ્ટનો મજબૂત સાથ મળ્યો હતો.

'ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન (OCR) એ નેચરલ લેંગ્વેજ પ્રોસેસિંગનો જ એક ભાગ છે,' ડો. અપૂર્વ દેસાઈ કહે છે, 'OCR થકી કમ્પ્યુટર હસ્તલિખિત ગુજરાતી અક્ષરોને ઓળખી લે છે. તમે નોટપેડ પર સ્ટાઇલસ (પેન જેવા ઉપકરણ)થી ગુજરાતીમાં લખો તો તેને ટેક્સ્ટમાં કન્વર્ટ કરી દેવું, સાદાં ગુજરાતી વાક્યોના વ્યાકરણનું એનેલિસિસ કરીને એનું કલર કોડિંગ કરવું વગેરે કામ અમે કર્યાં છે. સ્ટિલ ઇમેજ એટલે કે તસવીરમાં છપાયેલા આંકડાને ઓળખીને અલગ તારવી લેવા, વીડિયોમાં દેખાતા ગુજરાતી શબ્દોને એનેલાઇઝ કરીને છૂટા પાડવા - આ બધાં કામ હજુ ચાલી રહ્યાં છે.'

ગુજરાતી NLPના રિસર્ચરો સામે સૌથી પહેલી ઊભી થતી સમસ્યા આ છેઃ લેંગ્વેજ મોડલને ટ્રેઇન કરવામાં ઉપયોગી બને તેવો શુદ્ધ ગુજરાતી લખાણનો વિશાળ ડેટાસેટ ઉપલબ્ધ નથી! ઓનલાઇન ગુજરાતી કોન્ટેન્ટ તો પુષ્કળ અવેલેબલ છે, પણ ભાષા, જોડણી તેમજ વ્યાકરણની દ્રષ્ટિએ તે શુદ્ધ હોતું નથી. જ્યારે તમે NLP મોડલ બનાવી રહ્યા હો ત્યારે કમ્પ્યુટરના પેટમાં કાચીપાકી ગુજરાતી ભાષા ઠૂંસી દો તે કેમ ચાલે? કમ્પ્યુટરને શરૃઆતથી જ શુદ્ધતમ ગુજરાતી ભાષા શીખવીએ તો જ એ સંતોષકારક પરિણામ આપે. આપણે સાચી જોડણી અને સાચા વ્યાકરણવાળી ગુજરાતી ભાષામાં જવાબો ઇચ્છતા હોઈએ તો NLP મોડલમાં ચોખ્ખામાં ચોખ્ખો ગુજરાતી ડેટા ફીડ કરવો પડે. આ દ્રષ્ટિએ ભગવદ્ગોમંડળ એક ઉત્તમ ડેટાસેટ છે, પણ કોણ જાણે કેમ, રિસર્ચરો માટે તે ઉપલબ્ધ નથી.

'ધારો કે ભગવદ્ગોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તે પૂરતું નથી,' ડો. અપૂર્વ દેસાઈ કહે છે.

કેમ? ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કરવા મથી રહેલા રિસર્ચરોને સામે કેવા કેવા અવરોધો ઊભા થતા રહે છે? આ અવરોધો દૂર કરવાના ઉપાયો ખરા? આના જવાબો હવે પછી.


00000000000

Part #3 

ગૂગલ ટ્રાન્સલેશન એપ ગુજરાતી અનુવાદમાં ગરબડ કેમ કરે છે? (પાર્ટ 3)


વાત-વિચાર - એડિટ પેજ - ગુજરાત સમાચાર (July 27, 2024)

---------------------------

'ગુજરાતી ભાષાને બચાવવા માટે ગુજરાતીમાં બોલવું-લખવું-પુસ્તકો છાપવાં-ગુજરાતી ફિલ્મો-નાટકોને ઉત્તેજન આપવું... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. ગુજરાતી ભાષાને જો જીવતી-ધબકતી રાખવી હશે તો તેને વહેલાસર આધુનિક ટેકનોલોજી સાથે જોડયા વગર નહીં ચાલે.'



આપણે જો ઇચ્છતા હોઈએ કે આટફિશિયલ ઇન્ટેલિજન્સ (AI)નો ઉપયોગ જેમાં થયો હોય તેવાં ટૂલ્સ, ચેટબોટ વગેરે અંગ્રેજીની જેમ ગુજરાતીમાં પણ મસ્ત રીતે, બિલકુલ સ્મૂધલી ઓપરેટ થાય તો તે માટે નિષ્ણાતોએ હજુ અભિમન્યુની જેમ ઘણા કોઠા ભેદવાના બાકી છે. આપણે ગયા શનિવારે જોયું કે ચેટજીપીટી એ એ AIની સૌથી લોકપ્રિય એપ્લિકેશન છે. ચેટજીપીટી એક લાર્જ લેંગ્વેજ મોડલ (LLM) છે, અને ત્યાં સુધી પહોંચવા માટે ગુજરાતી ભાષાએ સૌથી પહેલાં તો અફલાતૂન નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) મોડલ વિકસાવવા પડે. NLP મોડલ એટલે આપણે રોજબરોજ જે ગુજરાતી ભાષા બોલીએ-લખીએ છીએ તે કમ્પ્યુટર ભૂલ વગર સમજી લે, તેવું સોફ્ટવેર.કમ્પ્યુટરને ગુજરાતી ભાષા શીખવતી વખતે લખાણનો જે ડેટાસેટ ઉપયોગમાં લેવામાં આવે તે જોડણી અને વ્યાકરણની દ્રષ્ટિએ શુદ્ધતમ હોય તે ખૂબ જરૂરી છે. ભગવોમંડળ અને સાર્થ જોડણી કોષ આ પ્રકારના આદર્શ ડેટાસેટ છે. તકલીફ એ છે કે લેંગ્વેજ મોડલને ટ્રેઇન કરવા માટે રિસર્ચરો માટે આ બન્ને સોર્સની સોફ્ટ કોપી યા તો એક્સેલ ફાઈલ્સ ઉપલબ્ધ નથી!
વીર નર્મદ સાઉથ ગુજરાત યુનિવર્સિટીના ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ ડો. અપૂર્વ દેસાઈ કહે છે, 'ઘારો કે ભગવોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તેને પ્રોસેસ કરીને આખો ડેટાબેઝ તૈયાર કરવો પડે. તમને ઉદાહરણ આપીને સમજાવું. 'છોકરો' અને 'છોકરી' આ બે શબ્દોનું મૂળ રૂપ 'છોકર' છે. 'છોકર'ને 'ઓ' પ્રત્યય લાગે તો 'છોકરો' બને, અને 'ઈ' પ્રત્યય લાગે તો 'છોકરી' બને. શબ્દના મૂળ રૂપ સુધી જવાની પ્રક્રિયાને 'સ્ટેમિંગ' કહે છે. એક એવો ડેટાસેટ હોવો જોઈએ, જેમાં પ્રત્યેક ગુજરાતી શબ્દનું મૂળ રૂપ લખાયેલું હોય. સ્ટેમિંગ પછી 'ટેગિંગ'ની પ્રક્રિયા કરવી પડે. ટેગિંગ એટલે જે-તે શબ્દ સંજ્ઞા(નાઉન) છે, ક્રિયાપદ (વર્બ) છે કે વિશેષણ (એડજેક્ટિવ) ઇત્યાદિ છે તે ચિહ્નિત કરવું. ધારો કે આવું વાક્ય છે: 'રવિ નામનો છોકરો હતી.' આ ખોટું વાક્ય છે. કમ્પ્યુટરને ખબર હોવી જોઈએ કે રવિ એક નામ (સંજ્ઞા) છે અને તે પુલ્લિંગ છે, તેથી આ વાક્યના અંતે 'હતી' નહીં પણ 'હતો' આવે. જો વ્યવસ્થિત સ્ટેમિંગ અને ટેગિંગ સાથેનો ડેટાસેટ પ્રોસેસ થયો હોય તો જ કમ્પ્યુટરને ખબર પડે કે ગુજરાતી વાક્યમાં નાઉન - વર્બ કયા છે, એની સિકવન્સ કેવી હોવી જોઈએ અને તે વ્યાકરણને અનુરૂપ છે કે કેમ. અમે આ પ્રકારનો આવશ્યક ડેટાસેટ વિકસાવ્યો છે, પણ તે સરળ વાક્યો પૂરતો સીમિત છે.'
અંગ્રેજીમાં બે જ જાતિ (જેન્ડર) છે - સ્ત્રીલિંગ અને પુલ્લિંગ, જ્યારે ગુજરાતીમાં ત્રીજી નાન્યતર જાતિ પણ છે. તેથી ગુજરાતી NLP ડેવલપ કરવાનું કામ પણ વધારે જટિલ બની જાય છે. પ્રોફેસર બ્રિજેશ ભટ્ટ આ વાત વિગતવાર સમજાવે છે, 'ગુજરાતીમાં પુલ્લિંગ, સ્ત્રીલિંગ અને નપુંસકલિંગ એમ ત્રણેય જાતિના પ્રત્યય ક્રિયાપદને પણ લાગે છે. જેમ કે 'રાજેશ આવ્યો', 'ગીતા આવી', 'કૂતરૂં આવ્યું'. અંગ્રેજીમાં જ્યારે 'Rajesh comes' કે 'Geeta comes' કહીએ ત્યારે કોઈ લિંગભેદ દેખાતો નથી, પણ અંગ્રેજીમાંથી ગુજરાતીમાં વાક્યનું ભાષાંતર કરીએ ત્યારે મશીને આ લિંગભેદ જાતે નક્કી કરવો પડે. આ ઉપરાંત ગુજરાતીમાં પ્રેરક વાક્ય એક વિશિષ્ટ રચના છે, જે અંગ્રેજી અનુવાદ કરવામાં મુશ્કેલી ઊભી કરે છે. ઉદાહરણ તરીકે આ વાક્ય: 'ગીતાએ લતા પાસે ગીત ગવડાવ્યું'. હવે, 'ગવડાવ્યું' શબ્દનું ભાષાંતર કરવા માટે અંગ્રેજીમાં એક કરતાં વધારે શબ્દોનો ઉપયોગ કરવો પડે (Geeta made Lata sing). ગુજરાતી અને અંગ્રેજીના શબ્દોની ગોઠવણી પણ અલગ છે. અંગ્રેજીમાં સામાન્યપણે સબ્જેક્ટ, વર્બ, ઓબ્જેક્ટ - આ ક્રમમાં વાક્ય બનાવવામાં આવે છે (Ram eats an apple), જ્યારે ગુજરાતીમાં કર્તા, કર્મ અને ક્રિયાપદ - આ પ્રમાણે વાક્ય ગોઠવાય છે (રામે સફરજન ખાધું). ભાષાંતર કરતી વખતે મશીને ગોઠવણની આ ફેરબદલ પણ ધ્યાનમાં લેવી પડે.'
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં કાર્યરત ડો. બ્રિજેશ ભટ્ટે આઈઆઇટી-બોમ્બેના પ્રોફેસર પુષ્કર ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ નેચરલ લેંગ્વેજ પ્રોસેસિંગ વિષયમાં પીએચ.ડી કર્યું છે. તેઓ ગુજરાતી NLPની ટેકનિકલ બાજુને સરળતાથી સહેજ વધારે ઊઘાડી આપે છે, 'જુઓ, ગુજરાતીમાં નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ સોફ્ટવેર બનાવવા માટે ત્રણ તબક્કામાં કામ કરવું પડે. એક છે, લેક્સિકલ (શબ્દાનુવાદ), બીજું છે સિન્ટેક્ટિક (વાક્યરચના) અને ત્રીજું, સિમેન્ટિક (અર્થઘટન). લેક્સિકલ તબક્કામાં શબ્દો, તેને લાગતા પ્રત્યયો અને જો ભાષાંતર કરવું હોય તો બીજી ભાષાનો શબ્દો જાણવા પડે. મોર્ફોલોજીકલ એનેલિસિસ એ લેક્સિકલ પ્રોસેસિંગનું પહેલું પગથિયું છે. ઉદાહરણ તરીકે, 'ગવડાવ્યું' આ શબ્દનું મૂળ રૂપ 'ગાવું' છે અને તેને 'ડાવ્યું' પ્રત્યય લાગ્યો છે, એવું મોર્ફોલોજી એનેલિસિસ દ્વારા મશીનને સમજાવી શકાય. બીજા તબક્કામાં વાક્યનું બંધારણ ચકાસવું પડે, જેના માટે પાર્ટ ઓફ સ્પીચ ટેગિંગ, પાર્સીંગ જેવા સોફ્ટવેરની જરૂર પડે. પાર્ટ ઓફ સ્પીચ ટેગર વાક્યમાં આવતા શબ્દોમાં નામ, ક્રિયાપદ, વિશેષણ વગેરે ઓળખી બતાવે, અને પાર્સર વાક્યમાં રહેલા શબ્દો એકબીજા સાથે કેવી રીતે જોડાઇને અર્થ બનાવે છે તે કહી શકે. ઉદાહરણ તરીકે, 'રામે ગીત ગાતા શ્યામને જોયો'. અહીં ગીત રામ ગાય છે કે શ્યામ? તે સમજવામાં ગોટાળો થઇ શકે. પાર્સર શબ્દોને એકબીજા સાથે જોડી અર્થઘટનમાં થતી ગરબડને દૂર કરે છે. છેલ્લા સિમેન્ટિક તબક્કામાં, શબ્દોના અર્થ અને તે અર્થોથી પૂરા વાક્યનો અર્થ કાઢવો પડે. એક શબ્દના ઘણા અર્થ હોઈ શકે છે. તેથી જ વર્ડ સેન્સ ડિસએમ્બિગ્યુએશન એ કદાચ NLPનો સૌૈથી અઘરો વિષય છે. જેમ કે, 'મારો ફોટો પડી ગયો' અને 'મારો મોબાઇલ પડી ગયો' આ બંને વાક્યોમાં 'પડી ગયો'નો અર્થ અલગ છે. આ પ્રકારના ગુજરાતી શબ્દપ્રયોગોનો અન્ય ભાષામાં અનુવાદ કરતી વખતે મશીન બાપડું ચકરાવે ન ચડી જાય અને અર્થનો અનર્થ ન કરી નાખે તેનું ધ્યાન રાખવું પડે.'
ગૂગલ ટ્રાન્સલેશન એપમાં ગુજરાતી વાક્યોના અંગ્રેજીમાં ને અંગ્રેજી વાક્યોના ગુજરાતીમાં ચક્રમ જેવા અનુવાદ થાય છે તેનું કારણ આ જ! અત્યારે ઉપકરણોમાં જે ગુજરાતી NLP વપરાય છે તેમાં ઉપર વર્ણવી તે ટેકનિકલ પ્રક્રિયાઓ પર પૂરતું કામ જ થયું નથી. પછી બિચારું મશીન ભાષાંતર કરવામાં લોચા જ મારેને! વળી, આપણે ગુજરાતી ભાષા બોલતી કે લખતી વખતે છૂટથી અંગ્રેજી-હિન્દી શબ્દો ભભરાવતા હોઈએ છીએ. નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ માટે આવી ખિચડી ભાષા પાછો એક અલગ જ પડકાર છે.
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં પ્રો. સી. કે. ભેંસદડીયાના નેતૃત્વમાં ગુજરાતી વર્ડનેટ અને ઇંગ્લિશ-ગુજરાતી મશીન ટ્રાન્સલેશન સંબંધિત કામ થાય છે. પ્રો. ભેંસદડીયા લગભગ છેલ્લાં ૩૦ વર્ષથી AIના ક્ષેત્રમાં વિદ્યાર્થીઓને તૈયાર કરી રહ્યા છે. તેમની સાથે પ્રો. બ્રિજેશ ભટ્ટ નેચરલ NLP પર કાર્ય કરી રહ્યા છે. પ્રો. ભેંસદડીયાએ આઇઆઇટી-બોમ્બેના પ્રો. પુષ્પક ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ એમટેક કર્યું છે. હાલ બન્ને નિષ્ણાત ડીપ લનગ બેઝ્ડ ન્યુરલ મશીન ટ્રાન્સલેશન પદ્ધતિથી અંગ્રેજીથી ગુજરાતી અનુવાદની સિસ્ટમ બનાવવામાં કાર્યરત છે.
ઘણું કામ છે, લાંબી સફર છે. કમ્પ્યુટરને ગુજરાતી શીખવવાનું કામ ઘણાં વર્ષોથી ત્રણ સ્તરે કામ થઈ રહ્યું છે - એકેડેમિશિયન્સ દ્વારા, સરકાર દ્વારા અને ગૂગલ-માઇક્રોસોફ્ટ જેવી જાયન્ટ કંપનીઓ દ્વારા. તકલીફ એ છે કે આ ત્રણેયને જોડતી કડીઓ કાં ગાયબ છે યા તો બહુ ઓછી છે. તેથી છૂટુંછવાયું કામ થતું રહે છે, પણ ત્રણેય જૂથને એકબીજાના જ્ઞાનનો લાભ જેટલો મળવો જોઈએ તેટલો મળતો નથી.
વાસદ સ્થિત સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટના આસિસ્ટન્ટ પ્રોફેસર Brijesh Panchal કહે છે, 'ભાષા અને ટેકનોલોજી બન્ને જાણતા હોય તેવા લોકો બહુ ઓછા છે. વિદેશમાં આ બન્ને ક્ષેત્રોને સાંકળી લે તેવા કોમ્પોઝિટ કોર્સ ચાલે છે, જે આપણે ત્યાં પણ હોવા જોઈએ. આપણે બીએ-એમએના વિદ્યાર્થીઓને કહેવું જોઈએ કે તમે માત્ર ટીચર કે એવું કશું જ નહીં, ભાષાશાસ્ત્રી પણ બની શકો છો. કમ્પ્યુટર એન્જિનીયરિંગ ભણતા વિદ્યાર્થીઓને ભાષાવિજ્ઞાાન તરફ આકર્ષણ હોતું નથી. તેમને પણ કહેવું જોઈએ કે જો તમે ગુજરાતી પુસ્તકો વાંચશો તો NLPમાં વધારે સમજ પડશે.'
અપૂર્વ દેસાઈ કહે છે, 'એક કોમન પ્લેટફોર્મ હોવું જોઈએ જ્યાં એકેડેમિશિયન્સ, ગુજરાતી સાહિત્ય પરિષદ અને ગુજરાતી સાહિત્ય અકાદમી જેવી સંસ્થાઓ, ભાષાવિદો, કમ્પ્યુટર એન્જિનીયરો અને સરકારના પ્રતિનિધિઓ એકબીજા સાથે ઇન્ટરેક્ટ કરી શકે કે જેથી ગુજરાતી ભાષાને આધુનિક ટેકનોલોજી સાથે વણી લેવાનું કામ સડસડાટ આગળ વધે, બોટલનેક ન સર્જાય અને કામનું અકારણ ડુપ્લિકેશન ન થાય. મારૂં તો સૂચન છે કે સાહિત્ય પરિષદ અને અકાદમીએ સાહિત્યકારોની સાથે સાથે આ ક્ષેત્રમાં ઉત્તમ કામગીરી કરનાર એકેડેમિશિયન્સ અને એન્જિનીયરોને પણ અલાયદા અવોર્ડ્ઝ આપવાનું શરૂ કરવું જોઈએ કે જેથી તેમનો ઉત્સાહ વધે અને વધારે પ્રતિભાઓ આ દિશામાં આકર્ષાય.'
બિલકુલ. કેમ નહીં?
ગુજરાતી ભાષા બચાવવાની બૂમરાણ વર્ષોથી એકધારી થઈ રહી છે. બ્રિજેશ પંચાલ સમાપન કરે છે, 'ગુજરાતી પુસ્તકો છાપવા ને વાંચવા, ગુજરાતી નાટકો-ફિલ્મોને ઉત્તેજન આપવું, ગુજરાતીમાં જ બોલવાનો આગ્રહ રાખવો... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. જો સાચી, શુદ્ધ ગુજરાતી ભાષાને આવનારી પેઢીઓ માટે રિલેવન્ટ રાખવી હશે તો ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કર્યા વગર છૂટકો નથી.'
ગુજરાતીમાં સુંદર રીતે ઓપરેટ થતાં AI ટૂલ્સની કલ્પના ખરેખર મોહક છે. આ સ્તર સુધી પહોંચવાનું કામ અઘરૂં જરૂર છે પણ અશક્ય નથી, જો યોગ્ય લોકો દ્વારા, યોગ્ય દિશામાં યોગ્ય પ્રયત્નો થાય તો!
- શિશિર રામાવત