Saturday, August 24, 2024

યુવલ નોઆહ હરારીના આગામી પુસ્તક 'NEXUS: A Brief History of Information Networks from the Stone Age to AI'માં શું છે?

તમારી પોસ્ટને લાઇક, કમેન્ટ, શેર અને ફોરવર્ડ કરનારા કોણ છે? જીવતાજાગતા માણસ કે AI ચેટબોટ?

--------------------

આપણે સોશિયલ મીડિયા પર પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે બોટ તરીકે ઓળખાતી AIની કરામત છે. બોટ આપણા જેવી જ ભાષામાં વાત કરીને સામેના માણસને કન્વિન્સ કરી શકે છે. એક્સ (ટ્વિટર)ના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે!

--------------------

વાત-વિચાર 0 એડિટ પેજ 0 ગુજરાત સમાચાર (24 ઓગસ્ટ, શનિવાર)



યુવલ નોઆહ હરારી એક એવા મેગાસ્ટાર લેખકનું નામ છે, જેમનું પુસ્તક છપાઈને બહાર પડે તે પહેલાં જ જબરદસ્ત ચર્ચામાં આવી જાય છે. ભૂતપૂર્વ અમેરિકન પ્રેસિડન્ટ બરાક ઓબામા, માઇક્રોસોફ્ટના સ્થાપક બિલ ગેટ્સથી માંડીને સત્તર-અઢાર વર્ષના કોલેજિયનો સુધીના સૌ કોઈ યુવલ હરારીના વાચકો ને ચાહકો છે. ઇઝરાયલમાં યુનિવસટી ઓફ જેરુસલામના ઇતિહાસ વિભાગમાં લેકચરર તરીકે કામ કરતા આ ૪૮ વર્ષીય લેખકનું સૌથી પહેલું પુસ્તક 'સેપિઅન્સ' ૨૦૧૧માં બહાર પડયું હતું અને ત્યારથી એમની ગણના દુનિયાના સૌથી સ્માર્ટ, સૌથી અરિજિનલ અને સૌથી મહત્ત્વના ચિંતકો-લેખકોમાં થવા માંડી હતી. 'સેપિઅન્સ' પછી 'હોમો ડુસ' (એટલે કે સુપર હ્યુમન અથવા મહામાનવ), 'ટ્વેન્ટીવન લેસન્સ ફોર ધ ટ્વેન્ટીફર્સ્ટ સેન્ચુરી' અને 'અનસ્ટોપેબલ અસ'ના ત્રણ ભાગ આવ્યા. યુવલ હરારીનાં પુસ્તકોના ૬૫થી વધારે ભાષાઓમાં અનુવાદ થઈ ચૂક્યાં છે અને અત્યાર સુધીમાં તેની ટોટલ ચાડાચાર કરોડ નકલો વેચાઈ ચૂકી છે. યુવલનાં નોન-ફિક્શન પુસ્તકોના વિષય ગંભીર હોય, પણ એમની લેખનશૈલી એવી રસાળ છે કે વાચકને જાણે કોઈ દિલધડક જાસૂસી નવલકથા વાંચી રહ્યા હોય તેવી અનુભૂતિ થાય.
યુવલ હરારીનું નવું પુસ્તક આવતા મહિને પ્રકાશિત થવાનું છે. એનું ટાઇટલ છે, 'નેક્સસઃ અ બ્રિફ હિસ્ટ્રી ઓફ ઇન્ફોર્મેશન નેટવર્ક્સ ફ્રોમ ધ સ્ટોન એજ ટુ AI'. યુવલે AI એટલે કે આટફિશિયલ ઇન્ટેલિજન્સ વિશે ઓલરેડી ખૂબ બધું લખ્યું છે, વકતવ્યો આપ્યાં છે, ઇન્ટરવ્યુઝમાં વાતો કરી છે. શું હશે આ પુસ્તકમાં? યુવલ હરારી કહે છે, 'અત્યારે આપણે માહિતીના પ્રચંડ ઉત્કાંતિયુગમાંથી પસાર થઈ રહ્યા છીએ. માનવજાતના ઇતિહાસમાં માહિતીનો આવો મહાવિસ્ફોટ અગાઉ ક્યારેય નોંધાયો નથી. માહિતીના મહાવિસ્ફોટને સમજતાં પહેલાં આપણે તે જાણવું પડે કે આ બધું આવ્યું છે ક્યાંથી. આપણે આપણી જાતને 'હોમો સેપિઅન્સ' કહીએ છીએ. 'હોમો સેપિઅન્સ' એટલે, સાદી ભાષામાં, ડાહ્યો માણસ, સમજદાર માણસ... પણ માણસ જો ખરેખર એટલો જ સમજદાર હોત તો આપણે આટલી હદે આત્મઘાતક પ્રવૃત્તિઓ શા માટે કરીએ છીએ? છેલ્લાં એક લાખ વર્ષ દરમિયાન માણસજાતે પુષ્કળ તાકાત એકઠી કરી છે, નવી નવી શોધો કરી છે, અદભુત સિદ્ધિઓ મેળવી છે. આમ છતાંય એવું કેમ બન્યું કે આજે આપણા અસ્તિત્ત્વ સામે ખતરો પેદા થયો છે? આખેઆખી માણસજાતનું નિકંદન નીકળી જાય એવી પરિસ્થિતિ કેવી રીતે ઊભી થઈ ગઈ? પૃથ્વી પર પર્યાવરણનું સંતુલન તૂટું-તૂટું થઈ રહ્યું છે. એવું શું બન્યું કે આજે આપણે પર્યાવરણ અને ટેકનોલોજીના સ્તરે આત્મહત્યાની ધાર સુધી ધકેલાઈ ગયા છીએ?'

માણસજાતને તાકાત ક્યાંથી મળે છે? એકમેકને સાથસહકાર આપીને, એકબીજાની પડખે ઊભા રહીને, એકમેક સાથે જોડાયેલા રહીને. બીજા શબ્દોમાં કહીએ તો, અસંખ્ય લોકોને આવરી લેતાં વિરાટ નેટવર્ક બનાવીને. આવાં વિરાટકાય નેટવર્ક્સનું સર્જન કેવી રીતે થાય અને તે શી રીતે ટકી રહે? યુવલ હરારી કહે છે, 'કથા-કહાણીઓ, કલ્પનાઓ અને ભ્રાંતિઓ ફેલાવીને. એકવીસમી સદીમાં આટફિશિયલ ઇન્ટેલિજન્સ (AI) ભ્રાંતિઓનું જબરદસ્ત નેટવર્ક ઘડી કાઢે, તેવું બને. શક્ય છે કે આવનારી પેઢીઓ આ ભ્રમજાળમાં એટલી હદે અટવાઈ જાય કે તેમને ખબર જ ન પડે કે સાચું છે ને ખોટું શું છે, ને તેઓ તે જાણવાની કોશિશ સુધ્ધાં ન કરે...'

આ, અલબત્ત, વર્સ્ટ-કેસ સિનારીયો યા તો સંભાવના છે. જો સમયસર ચેતી જઈશું તો બાજી હજુય આપણા હાથમાં છે. યુવલ હરારીના આગામી પુસ્તક 'નેક્સસ'માં આ જ વિષયને બહેલાવવામાં આવ્યો છે. થોડા દિવસો પહેલાં યુનાઇટેડ નેશન્સ દ્વારા યુવલ હરારી અને 'ધ અટલાન્ટિક' નામના પ્રતિતિ અમેરિકન મેગેઝિનના સીઈઓ નિકોલસ થોમ્પસન વચ્ચે સંવાદનું આયોજન થયું હતું. આ અફલાતૂન સંવાદમાં યુવલ હરારી કહે છે, 'આપણે એટલે કે માણસો નવાં નવાં સાધનો અને ટેકનોલોજી વાપરવાના મામલામાં બહુ હોશિયાર નથી. આપણે પુષ્કળ ભૂલો કરીએ છીએ. બીજા કશાયને નુક્સાન ન થાય તે રીતે જે-તે ટેકનોલોજીથી યોગ્ય રીતે કેવી રીતે વાપરવી તે શીખતાં આપણને ખૂબ વાર લાગે છે. ઔદ્યોગિક ક્રાંતિનું ઉદાહરણ લો. યંત્રોને શી રીતે વાપરવા જોઈતા હતાં તેની આપણને પૂરેપૂરી સમજ પડે તે પહેલાં આપણે ભયંકર ભૂલો કરી ચૂક્યા હતા. સામ્રાજ્યવાદ, નાઝીવાદ, કમ્યુનિઝમ, બબ્બે વિશ્વયુદ્ધ આ બધાનાં મૂળમાં યંત્રોને સાચી રીતે ન વાપરી શકવાની આપણી અણસમજ તો છે. ઘણા લોકો AI રિવોલ્યુશનની સરખામણી ઔદ્યોગિક ક્રાંતિ સાથે કરે છે, પણ હકીકત એ છે કે આપણે ઔદ્યોગિક ક્રાંતિ કરવામાં જે ભૂલો કરી છે એવી ભૂલો જો AI ક્રાંતિમાં કરીશું તો પૃથ્વી પરથી માનવજાતનો સદંતર સફાયો નીકળી જશે. આપણે એ પણ સમજવું જોઈએ કે આપણે AI કેવી રીતે વાપરવી જોઈએ તે શીખી રહ્યા છીએ ત્યારે સાથે સાથે AI પણ માણસને કઈ રીતે 'વાપરવો' તે શીખી રહ્યું છે! તેથી અગાઉની શોધખોળોનાં સારાં-ખરાબ પાસાં સમજવામાં આપણે જેટલો સમય લીધો છે એટલો સમય આપણને AIના કેસમાં નહીં મળે. આપણી પાસે આ વખતે ભૂલો કરવાનો અવકાશ બહુ જ ઓછો છે.'

પણ હજુ તો AI પા-પા પગલી ભરી રહ્યું છે. ન કરે નારાયણ, પણ AI પાસે ન્યુક્લિયર વોર શરૃ કરાવીને માણસજાતનો ખાત્મો બોલાવી દેવાની તાકાત આવી શકે છેે... પણ આ સ્થિતિ આવતાં હજુ તો બહુ વાર લાગવાની છે, રાઇટ? યુવલ હરારી કહે છે, 'મને નથી લાગતું કે AI હોલિવુડની સાયન્સ ફિક્શન ફિલ્મોમાં જોવા મળે છે એવું વિશ્વવિનાશક ક્યારેય બનશે, પણ ખતરો આ છેઃ અત્યારે ઘોડિયામાં હિંચકા ખાતા AI પાસે ઓલરેડી એટલી તાકાત આવી ચૂકી છે કે તે આંધાધૂંધી ફેલાવી શકે. સોશિયલ મીડિયાનો દાખલો લો. AIને ઓલરેડી ખબર પડી ગઈ છે કે જો ચોક્કસ પ્રકારના આલ્ગોરિધમની મદદથી લોકો ઉશ્કેરાઈ જાય એવા લખાણ, વીડિયો કે તસવીરોને વધુમાં વધુ ફેલાવવામાં આવે તો જનતાનું ધ્યાન વધારે ખેંચી શકાય છે, તેઓ વધારે સમય સુધી સોશિયલ મીડિયા પર પડયાપાથર્યા રહે છે. માણસના સ્વભાવનું આ પાસું AIએ બરાબર ઓળખી લીધું છે, જેને કારણે દુનિયામાં કેટલાય દેશોમાં સરકારો અને સંસ્થાઓ પ્રત્યે અવિશ્વાસનું ગંદું વાતાવરણ પેદા થઈ ગયું છે. એક્સ (ટ્વિટર), ફેસબુક, યુટયુબ, વોટ્સએપ જેવાં સોશિયલ મીડિયા પર જે પ્રકારનાં નરેટિવ ચાલે છે અને લોકો વચ્ચે જે કક્ષાના સંવાદ થાય છે તે જુઓ. આ કેટલી અફસોસજનક વાત છે કે આપણી પાસે આજે ઇન્ફર્મેશન ટેકનોલોજીનું સૌથી સોફિસ્ટિકેટેડ માધ્યમ છે, પણ લોકો હવે કોઈ મુદ્દે સહમત થઈ શકતા નથી. તેમની વચ્ચે અર્થપૂર્ણ સંવાદ જ થઈ શકતો નથી.'

આજે આપણે સોશિયલ મીડિયા પર જે પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે તે ચેટબોટ દ્વારા લખાયું છે. ચેટબોટ એટલે એક પ્રકારનો કમ્પ્યુટર પ્રોગ્રામ, જે આપણા જેવી જ ભાષામાં વાત કરે, તમે જે પૂછો એના વિશે માહિતી આપે, વગેરે. આજકાલ બેન્ક્સ, ઓનલાઇન શોપિંગ માટેની વેબસાઇટ્સ વગેરે ચેટબોટનો ભરપૂર ઉપયોગ કરે છે. આ તો ખેર, ચેટબોટનો સારો ઉપયોગ થયો, પણ આ જ ચેટબોટ (અથવા ટૂંકમાં બોટ)નો ઉપયોગ સોશિયલ મીડિયા પર ફેક ન્યુઝ ફેલાવવામાં, લોકો ઉશ્કેરાઈ જાય તેવાં લખાણ-તસવીરો ફેલાવામાં પણ થાય છે. ધારો કે એક્સ (ટ્વિટર) પર હિંદુ-મુસ્લિમ મુદ્દે પોસ્ટ નીચે કમેન્ટ્સમાં ભયંકર ગરમાગરમી જામી હોય ત્યારે તમને ખબર હોતી નથી આમાંની અમુક કમેન્ટ્સ ચેટબોટ દ્વારા જનરેટ થયેલી હોઈ શકે છે. એક અંદાજ પ્રમાણે આજની તારીખે એક્લા એક્સ પર ૨.૨ કરોડથી લઈને ૬.૫ કરોડ જેટલા બોટ્સ એક્ટિવ છે. એક્સના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે! મતલબ કે એક્સ વાપરનારા કરોડો યુઝર્સ માણસ છે જ નહીં, મશીન છે, જે આપણા કરતાંય વધારે અસરકારક ભાષામાં, સામેનો માણસ બિલકુલ કન્વિન્સ થઈ જાય તે રીતે કમ્યુનિકેટ કરી શકે છે. ચેટજીપીટી-ફોર જેવા લાર્જ લેંગ્વેજ મોડલ (એલએલએમ)ને કારણે આ શક્ય બન્યું છે. આ તો ફ્ક્ત એક એક્સની વાત થઈ. ફેસબુક, યુટયુબ, વોટ્સએપ અને અન્ય સોશિયલ મીડિયાને ગણતરીમાં લઈએ તો વિચારો કે કુલ બોટ્સનો આંકડો ક્યાં પહોંચતો હશે! આમાંના અમુક બોટ જેન્યુઇન યા તો સર્વિસ બેઝ્ડ હોવાના, પણ અન્ય લાખો-કરોડો બોટનો ઉપયોગ રાજકીય કે અન્ય પ્રકારની વિચારધારાના પ્રચાર માટે, ફેક ન્યુઝ ફેલાવવા, રીટ્વિટ કરવા અને જે-તે પોસ્ટને શેર તથા ફોરવર્ડ કરવા માટે થઈ શકે છે, થાય છે.

'વાંધો ચેટબોટની સંકલ્પના સામે નથી,' યુવલ હરારી સ્પષ્ટતા કરે છે, 'જેમ કે AI ડોક્ટર (મેડિકલ ક્ષેત્રનો ચેટબોટ) તો આશીર્વાદરૃપ છે, પણ અહીં આપણને ખબર હોય છે કે હું જેની સાથે ચેટિંગ કરી રહ્યો છું તે હાડમાંસનો બનેલો સાચો ડોક્ટર નથી, પણ એક બોટ છે. ખતરો ત્યારે પેદા થાય છે, જ્યારે બોટની ખરી ઓળખ છુપાવીને તેને અસલી માણસ તરીકે સોશિયલ મીડિયા પર છુટ્ટો મૂકી દેવામાં આવે છે. જ્યારે આપણે સોશિયલ મીડિયા પર કોઈની પણ સાથે વાતચીત કરતા હોઈએ ત્યારે આપણને ખબર હોવી જોઈએ કે સામેવાળો અસલી માણસ છે કે AIએ પેદા કરેલો બોટ છે. જે દેશોમાં લોકશાહી છે ત્યાં AIનો આ પ્રકારનો ઉપયોગ કેટલો ખતરનાક થઈ શકે છે તે વિચારો.'

- શિશિર રામાવત


Like
Comment
Send
Share

Sunday, July 28, 2024

ગૂગલ ટ્રાન્સલેશન એપ ગુજરાતી અનુવાદમાં ગરબડ કેમ કરે છે? (Part 3)

વાત-વિચાર - એડિટ પેજ - ગુજરાત સમાચાર (July 27, 2024)

---------------------------

'ગુજરાતી ભાષાને બચાવવા માટે ગુજરાતીમાં બોલવું-લખવું-પુસ્તકો છાપવાં-ગુજરાતી ફિલ્મો-નાટકોને ઉત્તેજન આપવું... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. ગુજરાતી ભાષાને જો જીવતી-ધબકતી રાખવી હશે તો તેને વહેલાસર આધુનિક ટેકનોલોજી સાથે જોડયા વગર નહીં ચાલે.'



આપણે જો ઇચ્છતા હોઈએ કે આટફિશિયલ ઇન્ટેલિજન્સ (AI)નો ઉપયોગ જેમાં થયો હોય તેવાં ટૂલ્સ, ચેટબોટ વગેરે અંગ્રેજીની જેમ ગુજરાતીમાં પણ મસ્ત રીતે, બિલકુલ સ્મૂધલી ઓપરેટ થાય તો તે માટે નિષ્ણાતોએ હજુ અભિમન્યુની જેમ ઘણા કોઠા ભેદવાના બાકી છે. આપણે ગયા શનિવારે જોયું કે ચેટજીપીટી એ એ AIની સૌથી લોકપ્રિય એપ્લિકેશન છે. ચેટજીપીટી એક લાર્જ લેંગ્વેજ મોડલ (LLM) છે, અને ત્યાં સુધી પહોંચવા માટે ગુજરાતી ભાષાએ સૌથી પહેલાં તો અફલાતૂન નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) મોડલ વિકસાવવા પડે. NLP મોડલ એટલે આપણે રોજબરોજ જે ગુજરાતી ભાષા બોલીએ-લખીએ છીએ તે કમ્પ્યુટર ભૂલ વગર સમજી લે, તેવું સોફ્ટવેર.કમ્પ્યુટરને ગુજરાતી ભાષા શીખવતી વખતે લખાણનો જે ડેટાસેટ ઉપયોગમાં લેવામાં આવે તે જોડણી અને વ્યાકરણની દ્રષ્ટિએ શુદ્ધતમ હોય તે ખૂબ જરૂરી છે. ભગવોમંડળ અને સાર્થ જોડણી કોષ આ પ્રકારના આદર્શ ડેટાસેટ છે. તકલીફ એ છે કે લેંગ્વેજ મોડલને ટ્રેઇન કરવા માટે રિસર્ચરો માટે આ બન્ને સોર્સની સોફ્ટ કોપી યા તો એક્સેલ ફાઈલ્સ ઉપલબ્ધ નથી!
વીર નર્મદ સાઉથ ગુજરાત યુનિવર્સિટીના ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ ડો. અપૂર્વ દેસાઈ કહે છે, 'ઘારો કે ભગવોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તેને પ્રોસેસ કરીને આખો ડેટાબેઝ તૈયાર કરવો પડે. તમને ઉદાહરણ આપીને સમજાવું. 'છોકરો' અને 'છોકરી' આ બે શબ્દોનું મૂળ રૂપ 'છોકર' છે. 'છોકર'ને 'ઓ' પ્રત્યય લાગે તો 'છોકરો' બને, અને 'ઈ' પ્રત્યય લાગે તો 'છોકરી' બને. શબ્દના મૂળ રૂપ સુધી જવાની પ્રક્રિયાને 'સ્ટેમિંગ' કહે છે. એક એવો ડેટાસેટ હોવો જોઈએ, જેમાં પ્રત્યેક ગુજરાતી શબ્દનું મૂળ રૂપ લખાયેલું હોય. સ્ટેમિંગ પછી 'ટેગિંગ'ની પ્રક્રિયા કરવી પડે. ટેગિંગ એટલે જે-તે શબ્દ સંજ્ઞા(નાઉન) છે, ક્રિયાપદ (વર્બ) છે કે વિશેષણ (એડજેક્ટિવ) ઇત્યાદિ છે તે ચિહ્નિત કરવું. ધારો કે આવું વાક્ય છે: 'રવિ નામનો છોકરો હતી.' આ ખોટું વાક્ય છે. કમ્પ્યુટરને ખબર હોવી જોઈએ કે રવિ એક નામ (સંજ્ઞા) છે અને તે પુલ્લિંગ છે, તેથી આ વાક્યના અંતે 'હતી' નહીં પણ 'હતો' આવે. જો વ્યવસ્થિત સ્ટેમિંગ અને ટેગિંગ સાથેનો ડેટાસેટ પ્રોસેસ થયો હોય તો જ કમ્પ્યુટરને ખબર પડે કે ગુજરાતી વાક્યમાં નાઉન - વર્બ કયા છે, એની સિકવન્સ કેવી હોવી જોઈએ અને તે વ્યાકરણને અનુરૂપ છે કે કેમ. અમે આ પ્રકારનો આવશ્યક ડેટાસેટ વિકસાવ્યો છે, પણ તે સરળ વાક્યો પૂરતો સીમિત છે.'
અંગ્રેજીમાં બે જ જાતિ (જેન્ડર) છે - સ્ત્રીલિંગ અને પુલ્લિંગ, જ્યારે ગુજરાતીમાં ત્રીજી નાન્યતર જાતિ પણ છે. તેથી ગુજરાતી NLP ડેવલપ કરવાનું કામ પણ વધારે જટિલ બની જાય છે. પ્રોફેસર બ્રિજેશ ભટ્ટ આ વાત વિગતવાર સમજાવે છે, 'ગુજરાતીમાં પુલ્લિંગ, સ્ત્રીલિંગ અને નપુંસકલિંગ એમ ત્રણેય જાતિના પ્રત્યય ક્રિયાપદને પણ લાગે છે. જેમ કે 'રાજેશ આવ્યો', 'ગીતા આવી', 'કૂતરૂં આવ્યું'. અંગ્રેજીમાં જ્યારે 'Rajesh comes' કે 'Geeta comes' કહીએ ત્યારે કોઈ લિંગભેદ દેખાતો નથી, પણ અંગ્રેજીમાંથી ગુજરાતીમાં વાક્યનું ભાષાંતર કરીએ ત્યારે મશીને આ લિંગભેદ જાતે નક્કી કરવો પડે. આ ઉપરાંત ગુજરાતીમાં પ્રેરક વાક્ય એક વિશિષ્ટ રચના છે, જે અંગ્રેજી અનુવાદ કરવામાં મુશ્કેલી ઊભી કરે છે. ઉદાહરણ તરીકે આ વાક્ય: 'ગીતાએ લતા પાસે ગીત ગવડાવ્યું'. હવે, 'ગવડાવ્યું' શબ્દનું ભાષાંતર કરવા માટે અંગ્રેજીમાં એક કરતાં વધારે શબ્દોનો ઉપયોગ કરવો પડે (Geeta made Lata sing). ગુજરાતી અને અંગ્રેજીના શબ્દોની ગોઠવણી પણ અલગ છે. અંગ્રેજીમાં સામાન્યપણે સબ્જેક્ટ, વર્બ, ઓબ્જેક્ટ - આ ક્રમમાં વાક્ય બનાવવામાં આવે છે (Ram eats an apple), જ્યારે ગુજરાતીમાં કર્તા, કર્મ અને ક્રિયાપદ - આ પ્રમાણે વાક્ય ગોઠવાય છે (રામે સફરજન ખાધું). ભાષાંતર કરતી વખતે મશીને ગોઠવણની આ ફેરબદલ પણ ધ્યાનમાં લેવી પડે.'
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં કાર્યરત ડો. બ્રિજેશ ભટ્ટે આઈઆઇટી-બોમ્બેના પ્રોફેસર પુષ્કર ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ નેચરલ લેંગ્વેજ પ્રોસેસિંગ વિષયમાં પીએચ.ડી કર્યું છે. તેઓ ગુજરાતી NLPની ટેકનિકલ બાજુને સરળતાથી સહેજ વધારે ઊઘાડી આપે છે, 'જુઓ, ગુજરાતીમાં નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ સોફ્ટવેર બનાવવા માટે ત્રણ તબક્કામાં કામ કરવું પડે. એક છે, લેક્સિકલ (શબ્દાનુવાદ), બીજું છે સિન્ટેક્ટિક (વાક્યરચના) અને ત્રીજું, સિમેન્ટિક (અર્થઘટન). લેક્સિકલ તબક્કામાં શબ્દો, તેને લાગતા પ્રત્યયો અને જો ભાષાંતર કરવું હોય તો બીજી ભાષાનો શબ્દો જાણવા પડે. મોર્ફોલોજીકલ એનેલિસિસ એ લેક્સિકલ પ્રોસેસિંગનું પહેલું પગથિયું છે. ઉદાહરણ તરીકે, 'ગવડાવ્યું' આ શબ્દનું મૂળ રૂપ 'ગાવું' છે અને તેને 'ડાવ્યું' પ્રત્યય લાગ્યો છે, એવું મોર્ફોલોજી એનેલિસિસ દ્વારા મશીનને સમજાવી શકાય. બીજા તબક્કામાં વાક્યનું બંધારણ ચકાસવું પડે, જેના માટે પાર્ટ ઓફ સ્પીચ ટેગિંગ, પાર્સીંગ જેવા સોફ્ટવેરની જરૂર પડે. પાર્ટ ઓફ સ્પીચ ટેગર વાક્યમાં આવતા શબ્દોમાં નામ, ક્રિયાપદ, વિશેષણ વગેરે ઓળખી બતાવે, અને પાર્સર વાક્યમાં રહેલા શબ્દો એકબીજા સાથે કેવી રીતે જોડાઇને અર્થ બનાવે છે તે કહી શકે. ઉદાહરણ તરીકે, 'રામે ગીત ગાતા શ્યામને જોયો'. અહીં ગીત રામ ગાય છે કે શ્યામ? તે સમજવામાં ગોટાળો થઇ શકે. પાર્સર શબ્દોને એકબીજા સાથે જોડી અર્થઘટનમાં થતી ગરબડને દૂર કરે છે. છેલ્લા સિમેન્ટિક તબક્કામાં, શબ્દોના અર્થ અને તે અર્થોથી પૂરા વાક્યનો અર્થ કાઢવો પડે. એક શબ્દના ઘણા અર્થ હોઈ શકે છે. તેથી જ વર્ડ સેન્સ ડિસએમ્બિગ્યુએશન એ કદાચ NLPનો સૌૈથી અઘરો વિષય છે. જેમ કે, 'મારો ફોટો પડી ગયો' અને 'મારો મોબાઇલ પડી ગયો' આ બંને વાક્યોમાં 'પડી ગયો'નો અર્થ અલગ છે. આ પ્રકારના ગુજરાતી શબ્દપ્રયોગોનો અન્ય ભાષામાં અનુવાદ કરતી વખતે મશીન બાપડું ચકરાવે ન ચડી જાય અને અર્થનો અનર્થ ન કરી નાખે તેનું ધ્યાન રાખવું પડે.'
ગૂગલ ટ્રાન્સલેશન એપમાં ગુજરાતી વાક્યોના અંગ્રેજીમાં ને અંગ્રેજી વાક્યોના ગુજરાતીમાં ચક્રમ જેવા અનુવાદ થાય છે તેનું કારણ આ જ! અત્યારે ઉપકરણોમાં જે ગુજરાતી NLP વપરાય છે તેમાં ઉપર વર્ણવી તે ટેકનિકલ પ્રક્રિયાઓ પર પૂરતું કામ જ થયું નથી. પછી બિચારું મશીન ભાષાંતર કરવામાં લોચા જ મારેને! વળી, આપણે ગુજરાતી ભાષા બોલતી કે લખતી વખતે છૂટથી અંગ્રેજી-હિન્દી શબ્દો ભભરાવતા હોઈએ છીએ. નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ માટે આવી ખિચડી ભાષા પાછો એક અલગ જ પડકાર છે.
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં પ્રો. સી. કે. ભેંસદડીયાના નેતૃત્વમાં ગુજરાતી વર્ડનેટ અને ઇંગ્લિશ-ગુજરાતી મશીન ટ્રાન્સલેશન સંબંધિત કામ થાય છે. પ્રો. ભેંસદડીયા લગભગ છેલ્લાં ૩૦ વર્ષથી AIના ક્ષેત્રમાં વિદ્યાર્થીઓને તૈયાર કરી રહ્યા છે. તેમની સાથે પ્રો. બ્રિજેશ ભટ્ટ નેચરલ NLP પર કાર્ય કરી રહ્યા છે. પ્રો. ભેંસદડીયાએ આઇઆઇટી-બોમ્બેના પ્રો. પુષ્પક ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ એમટેક કર્યું છે. હાલ બન્ને નિષ્ણાત ડીપ લનગ બેઝ્ડ ન્યુરલ મશીન ટ્રાન્સલેશન પદ્ધતિથી અંગ્રેજીથી ગુજરાતી અનુવાદની સિસ્ટમ બનાવવામાં કાર્યરત છે.
ઘણું કામ છે, લાંબી સફર છે. કમ્પ્યુટરને ગુજરાતી શીખવવાનું કામ ઘણાં વર્ષોથી ત્રણ સ્તરે કામ થઈ રહ્યું છે - એકેડેમિશિયન્સ દ્વારા, સરકાર દ્વારા અને ગૂગલ-માઇક્રોસોફ્ટ જેવી જાયન્ટ કંપનીઓ દ્વારા. તકલીફ એ છે કે આ ત્રણેયને જોડતી કડીઓ કાં ગાયબ છે યા તો બહુ ઓછી છે. તેથી છૂટુંછવાયું કામ થતું રહે છે, પણ ત્રણેય જૂથને એકબીજાના જ્ઞાનનો લાભ જેટલો મળવો જોઈએ તેટલો મળતો નથી.
વાસદ સ્થિત સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટના આસિસ્ટન્ટ પ્રોફેસર Brijesh Panchal કહે છે, 'ભાષા અને ટેકનોલોજી બન્ને જાણતા હોય તેવા લોકો બહુ ઓછા છે. વિદેશમાં આ બન્ને ક્ષેત્રોને સાંકળી લે તેવા કોમ્પોઝિટ કોર્સ ચાલે છે, જે આપણે ત્યાં પણ હોવા જોઈએ. આપણે બીએ-એમએના વિદ્યાર્થીઓને કહેવું જોઈએ કે તમે માત્ર ટીચર કે એવું કશું જ નહીં, ભાષાશાસ્ત્રી પણ બની શકો છો. કમ્પ્યુટર એન્જિનીયરિંગ ભણતા વિદ્યાર્થીઓને ભાષાવિજ્ઞાાન તરફ આકર્ષણ હોતું નથી. તેમને પણ કહેવું જોઈએ કે જો તમે ગુજરાતી પુસ્તકો વાંચશો તો NLPમાં વધારે સમજ પડશે.'
અપૂર્વ દેસાઈ કહે છે, 'એક કોમન પ્લેટફોર્મ હોવું જોઈએ જ્યાં એકેડેમિશિયન્સ, ગુજરાતી સાહિત્ય પરિષદ અને ગુજરાતી સાહિત્ય અકાદમી જેવી સંસ્થાઓ, ભાષાવિદો, કમ્પ્યુટર એન્જિનીયરો અને સરકારના પ્રતિનિધિઓ એકબીજા સાથે ઇન્ટરેક્ટ કરી શકે કે જેથી ગુજરાતી ભાષાને આધુનિક ટેકનોલોજી સાથે વણી લેવાનું કામ સડસડાટ આગળ વધે, બોટલનેક ન સર્જાય અને કામનું અકારણ ડુપ્લિકેશન ન થાય. મારૂં તો સૂચન છે કે સાહિત્ય પરિષદ અને અકાદમીએ સાહિત્યકારોની સાથે સાથે આ ક્ષેત્રમાં ઉત્તમ કામગીરી કરનાર એકેડેમિશિયન્સ અને એન્જિનીયરોને પણ અલાયદા અવોર્ડ્ઝ આપવાનું શરૂ કરવું જોઈએ કે જેથી તેમનો ઉત્સાહ વધે અને વધારે પ્રતિભાઓ આ દિશામાં આકર્ષાય.'
બિલકુલ. કેમ નહીં?
ગુજરાતી ભાષા બચાવવાની બૂમરાણ વર્ષોથી એકધારી થઈ રહી છે. બ્રિજેશ પંચાલ સમાપન કરે છે, 'ગુજરાતી પુસ્તકો છાપવા ને વાંચવા, ગુજરાતી નાટકો-ફિલ્મોને ઉત્તેજન આપવું, ગુજરાતીમાં જ બોલવાનો આગ્રહ રાખવો... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. જો સાચી, શુદ્ધ ગુજરાતી ભાષાને આવનારી પેઢીઓ માટે રિલેવન્ટ રાખવી હશે તો ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કર્યા વગર છૂટકો નથી.'
ગુજરાતીમાં સુંદર રીતે ઓપરેટ થતાં AI ટૂલ્સની કલ્પના ખરેખર મોહક છે. આ સ્તર સુધી પહોંચવાનું કામ અઘરૂં જરૂર છે પણ અશક્ય નથી, જો યોગ્ય લોકો દ્વારા, યોગ્ય દિશામાં યોગ્ય પ્રયત્નો થાય તો!
- શિશિર રામાવત