Saturday, August 24, 2024

યુવલ નોઆહ હરારીના આગામી પુસ્તક 'NEXUS: A Brief History of Information Networks from the Stone Age to AI'માં શું છે?

તમારી પોસ્ટને લાઇક, કમેન્ટ, શેર અને ફોરવર્ડ કરનારા કોણ છે? જીવતાજાગતા માણસ કે AI ચેટબોટ?

--------------------

આપણે સોશિયલ મીડિયા પર પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે બોટ તરીકે ઓળખાતી AIની કરામત છે. બોટ આપણા જેવી જ ભાષામાં વાત કરીને સામેના માણસને કન્વિન્સ કરી શકે છે. એક્સ (ટ્વિટર)ના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે!

--------------------

વાત-વિચાર 0 એડિટ પેજ 0 ગુજરાત સમાચાર (24 ઓગસ્ટ, શનિવાર)



યુવલ નોઆહ હરારી એક એવા મેગાસ્ટાર લેખકનું નામ છે, જેમનું પુસ્તક છપાઈને બહાર પડે તે પહેલાં જ જબરદસ્ત ચર્ચામાં આવી જાય છે. ભૂતપૂર્વ અમેરિકન પ્રેસિડન્ટ બરાક ઓબામા, માઇક્રોસોફ્ટના સ્થાપક બિલ ગેટ્સથી માંડીને સત્તર-અઢાર વર્ષના કોલેજિયનો સુધીના સૌ કોઈ યુવલ હરારીના વાચકો ને ચાહકો છે. ઇઝરાયલમાં યુનિવસટી ઓફ જેરુસલામના ઇતિહાસ વિભાગમાં લેકચરર તરીકે કામ કરતા આ ૪૮ વર્ષીય લેખકનું સૌથી પહેલું પુસ્તક 'સેપિઅન્સ' ૨૦૧૧માં બહાર પડયું હતું અને ત્યારથી એમની ગણના દુનિયાના સૌથી સ્માર્ટ, સૌથી અરિજિનલ અને સૌથી મહત્ત્વના ચિંતકો-લેખકોમાં થવા માંડી હતી. 'સેપિઅન્સ' પછી 'હોમો ડુસ' (એટલે કે સુપર હ્યુમન અથવા મહામાનવ), 'ટ્વેન્ટીવન લેસન્સ ફોર ધ ટ્વેન્ટીફર્સ્ટ સેન્ચુરી' અને 'અનસ્ટોપેબલ અસ'ના ત્રણ ભાગ આવ્યા. યુવલ હરારીનાં પુસ્તકોના ૬૫થી વધારે ભાષાઓમાં અનુવાદ થઈ ચૂક્યાં છે અને અત્યાર સુધીમાં તેની ટોટલ ચાડાચાર કરોડ નકલો વેચાઈ ચૂકી છે. યુવલનાં નોન-ફિક્શન પુસ્તકોના વિષય ગંભીર હોય, પણ એમની લેખનશૈલી એવી રસાળ છે કે વાચકને જાણે કોઈ દિલધડક જાસૂસી નવલકથા વાંચી રહ્યા હોય તેવી અનુભૂતિ થાય.
યુવલ હરારીનું નવું પુસ્તક આવતા મહિને પ્રકાશિત થવાનું છે. એનું ટાઇટલ છે, 'નેક્સસઃ અ બ્રિફ હિસ્ટ્રી ઓફ ઇન્ફોર્મેશન નેટવર્ક્સ ફ્રોમ ધ સ્ટોન એજ ટુ AI'. યુવલે AI એટલે કે આટફિશિયલ ઇન્ટેલિજન્સ વિશે ઓલરેડી ખૂબ બધું લખ્યું છે, વકતવ્યો આપ્યાં છે, ઇન્ટરવ્યુઝમાં વાતો કરી છે. શું હશે આ પુસ્તકમાં? યુવલ હરારી કહે છે, 'અત્યારે આપણે માહિતીના પ્રચંડ ઉત્કાંતિયુગમાંથી પસાર થઈ રહ્યા છીએ. માનવજાતના ઇતિહાસમાં માહિતીનો આવો મહાવિસ્ફોટ અગાઉ ક્યારેય નોંધાયો નથી. માહિતીના મહાવિસ્ફોટને સમજતાં પહેલાં આપણે તે જાણવું પડે કે આ બધું આવ્યું છે ક્યાંથી. આપણે આપણી જાતને 'હોમો સેપિઅન્સ' કહીએ છીએ. 'હોમો સેપિઅન્સ' એટલે, સાદી ભાષામાં, ડાહ્યો માણસ, સમજદાર માણસ... પણ માણસ જો ખરેખર એટલો જ સમજદાર હોત તો આપણે આટલી હદે આત્મઘાતક પ્રવૃત્તિઓ શા માટે કરીએ છીએ? છેલ્લાં એક લાખ વર્ષ દરમિયાન માણસજાતે પુષ્કળ તાકાત એકઠી કરી છે, નવી નવી શોધો કરી છે, અદભુત સિદ્ધિઓ મેળવી છે. આમ છતાંય એવું કેમ બન્યું કે આજે આપણા અસ્તિત્ત્વ સામે ખતરો પેદા થયો છે? આખેઆખી માણસજાતનું નિકંદન નીકળી જાય એવી પરિસ્થિતિ કેવી રીતે ઊભી થઈ ગઈ? પૃથ્વી પર પર્યાવરણનું સંતુલન તૂટું-તૂટું થઈ રહ્યું છે. એવું શું બન્યું કે આજે આપણે પર્યાવરણ અને ટેકનોલોજીના સ્તરે આત્મહત્યાની ધાર સુધી ધકેલાઈ ગયા છીએ?'

માણસજાતને તાકાત ક્યાંથી મળે છે? એકમેકને સાથસહકાર આપીને, એકબીજાની પડખે ઊભા રહીને, એકમેક સાથે જોડાયેલા રહીને. બીજા શબ્દોમાં કહીએ તો, અસંખ્ય લોકોને આવરી લેતાં વિરાટ નેટવર્ક બનાવીને. આવાં વિરાટકાય નેટવર્ક્સનું સર્જન કેવી રીતે થાય અને તે શી રીતે ટકી રહે? યુવલ હરારી કહે છે, 'કથા-કહાણીઓ, કલ્પનાઓ અને ભ્રાંતિઓ ફેલાવીને. એકવીસમી સદીમાં આટફિશિયલ ઇન્ટેલિજન્સ (AI) ભ્રાંતિઓનું જબરદસ્ત નેટવર્ક ઘડી કાઢે, તેવું બને. શક્ય છે કે આવનારી પેઢીઓ આ ભ્રમજાળમાં એટલી હદે અટવાઈ જાય કે તેમને ખબર જ ન પડે કે સાચું છે ને ખોટું શું છે, ને તેઓ તે જાણવાની કોશિશ સુધ્ધાં ન કરે...'

આ, અલબત્ત, વર્સ્ટ-કેસ સિનારીયો યા તો સંભાવના છે. જો સમયસર ચેતી જઈશું તો બાજી હજુય આપણા હાથમાં છે. યુવલ હરારીના આગામી પુસ્તક 'નેક્સસ'માં આ જ વિષયને બહેલાવવામાં આવ્યો છે. થોડા દિવસો પહેલાં યુનાઇટેડ નેશન્સ દ્વારા યુવલ હરારી અને 'ધ અટલાન્ટિક' નામના પ્રતિતિ અમેરિકન મેગેઝિનના સીઈઓ નિકોલસ થોમ્પસન વચ્ચે સંવાદનું આયોજન થયું હતું. આ અફલાતૂન સંવાદમાં યુવલ હરારી કહે છે, 'આપણે એટલે કે માણસો નવાં નવાં સાધનો અને ટેકનોલોજી વાપરવાના મામલામાં બહુ હોશિયાર નથી. આપણે પુષ્કળ ભૂલો કરીએ છીએ. બીજા કશાયને નુક્સાન ન થાય તે રીતે જે-તે ટેકનોલોજીથી યોગ્ય રીતે કેવી રીતે વાપરવી તે શીખતાં આપણને ખૂબ વાર લાગે છે. ઔદ્યોગિક ક્રાંતિનું ઉદાહરણ લો. યંત્રોને શી રીતે વાપરવા જોઈતા હતાં તેની આપણને પૂરેપૂરી સમજ પડે તે પહેલાં આપણે ભયંકર ભૂલો કરી ચૂક્યા હતા. સામ્રાજ્યવાદ, નાઝીવાદ, કમ્યુનિઝમ, બબ્બે વિશ્વયુદ્ધ આ બધાનાં મૂળમાં યંત્રોને સાચી રીતે ન વાપરી શકવાની આપણી અણસમજ તો છે. ઘણા લોકો AI રિવોલ્યુશનની સરખામણી ઔદ્યોગિક ક્રાંતિ સાથે કરે છે, પણ હકીકત એ છે કે આપણે ઔદ્યોગિક ક્રાંતિ કરવામાં જે ભૂલો કરી છે એવી ભૂલો જો AI ક્રાંતિમાં કરીશું તો પૃથ્વી પરથી માનવજાતનો સદંતર સફાયો નીકળી જશે. આપણે એ પણ સમજવું જોઈએ કે આપણે AI કેવી રીતે વાપરવી જોઈએ તે શીખી રહ્યા છીએ ત્યારે સાથે સાથે AI પણ માણસને કઈ રીતે 'વાપરવો' તે શીખી રહ્યું છે! તેથી અગાઉની શોધખોળોનાં સારાં-ખરાબ પાસાં સમજવામાં આપણે જેટલો સમય લીધો છે એટલો સમય આપણને AIના કેસમાં નહીં મળે. આપણી પાસે આ વખતે ભૂલો કરવાનો અવકાશ બહુ જ ઓછો છે.'

પણ હજુ તો AI પા-પા પગલી ભરી રહ્યું છે. ન કરે નારાયણ, પણ AI પાસે ન્યુક્લિયર વોર શરૃ કરાવીને માણસજાતનો ખાત્મો બોલાવી દેવાની તાકાત આવી શકે છેે... પણ આ સ્થિતિ આવતાં હજુ તો બહુ વાર લાગવાની છે, રાઇટ? યુવલ હરારી કહે છે, 'મને નથી લાગતું કે AI હોલિવુડની સાયન્સ ફિક્શન ફિલ્મોમાં જોવા મળે છે એવું વિશ્વવિનાશક ક્યારેય બનશે, પણ ખતરો આ છેઃ અત્યારે ઘોડિયામાં હિંચકા ખાતા AI પાસે ઓલરેડી એટલી તાકાત આવી ચૂકી છે કે તે આંધાધૂંધી ફેલાવી શકે. સોશિયલ મીડિયાનો દાખલો લો. AIને ઓલરેડી ખબર પડી ગઈ છે કે જો ચોક્કસ પ્રકારના આલ્ગોરિધમની મદદથી લોકો ઉશ્કેરાઈ જાય એવા લખાણ, વીડિયો કે તસવીરોને વધુમાં વધુ ફેલાવવામાં આવે તો જનતાનું ધ્યાન વધારે ખેંચી શકાય છે, તેઓ વધારે સમય સુધી સોશિયલ મીડિયા પર પડયાપાથર્યા રહે છે. માણસના સ્વભાવનું આ પાસું AIએ બરાબર ઓળખી લીધું છે, જેને કારણે દુનિયામાં કેટલાય દેશોમાં સરકારો અને સંસ્થાઓ પ્રત્યે અવિશ્વાસનું ગંદું વાતાવરણ પેદા થઈ ગયું છે. એક્સ (ટ્વિટર), ફેસબુક, યુટયુબ, વોટ્સએપ જેવાં સોશિયલ મીડિયા પર જે પ્રકારનાં નરેટિવ ચાલે છે અને લોકો વચ્ચે જે કક્ષાના સંવાદ થાય છે તે જુઓ. આ કેટલી અફસોસજનક વાત છે કે આપણી પાસે આજે ઇન્ફર્મેશન ટેકનોલોજીનું સૌથી સોફિસ્ટિકેટેડ માધ્યમ છે, પણ લોકો હવે કોઈ મુદ્દે સહમત થઈ શકતા નથી. તેમની વચ્ચે અર્થપૂર્ણ સંવાદ જ થઈ શકતો નથી.'

આજે આપણે સોશિયલ મીડિયા પર જે પોસ્ટ કે કમેન્ટ્સ વાંચીએ છીએ ત્યારે આપણને ખબર હોતી નથી કે આ કોઈ જીવતાજાગતા માણસે લખ્યું છે કે તે ચેટબોટ દ્વારા લખાયું છે. ચેટબોટ એટલે એક પ્રકારનો કમ્પ્યુટર પ્રોગ્રામ, જે આપણા જેવી જ ભાષામાં વાત કરે, તમે જે પૂછો એના વિશે માહિતી આપે, વગેરે. આજકાલ બેન્ક્સ, ઓનલાઇન શોપિંગ માટેની વેબસાઇટ્સ વગેરે ચેટબોટનો ભરપૂર ઉપયોગ કરે છે. આ તો ખેર, ચેટબોટનો સારો ઉપયોગ થયો, પણ આ જ ચેટબોટ (અથવા ટૂંકમાં બોટ)નો ઉપયોગ સોશિયલ મીડિયા પર ફેક ન્યુઝ ફેલાવવામાં, લોકો ઉશ્કેરાઈ જાય તેવાં લખાણ-તસવીરો ફેલાવામાં પણ થાય છે. ધારો કે એક્સ (ટ્વિટર) પર હિંદુ-મુસ્લિમ મુદ્દે પોસ્ટ નીચે કમેન્ટ્સમાં ભયંકર ગરમાગરમી જામી હોય ત્યારે તમને ખબર હોતી નથી આમાંની અમુક કમેન્ટ્સ ચેટબોટ દ્વારા જનરેટ થયેલી હોઈ શકે છે. એક અંદાજ પ્રમાણે આજની તારીખે એક્લા એક્સ પર ૨.૨ કરોડથી લઈને ૬.૫ કરોડ જેટલા બોટ્સ એક્ટિવ છે. એક્સના લગભગ પાંચથી ૨૦ ટકા યુઝર્સ આ બોટ 'લોકો' છે! મતલબ કે એક્સ વાપરનારા કરોડો યુઝર્સ માણસ છે જ નહીં, મશીન છે, જે આપણા કરતાંય વધારે અસરકારક ભાષામાં, સામેનો માણસ બિલકુલ કન્વિન્સ થઈ જાય તે રીતે કમ્યુનિકેટ કરી શકે છે. ચેટજીપીટી-ફોર જેવા લાર્જ લેંગ્વેજ મોડલ (એલએલએમ)ને કારણે આ શક્ય બન્યું છે. આ તો ફ્ક્ત એક એક્સની વાત થઈ. ફેસબુક, યુટયુબ, વોટ્સએપ અને અન્ય સોશિયલ મીડિયાને ગણતરીમાં લઈએ તો વિચારો કે કુલ બોટ્સનો આંકડો ક્યાં પહોંચતો હશે! આમાંના અમુક બોટ જેન્યુઇન યા તો સર્વિસ બેઝ્ડ હોવાના, પણ અન્ય લાખો-કરોડો બોટનો ઉપયોગ રાજકીય કે અન્ય પ્રકારની વિચારધારાના પ્રચાર માટે, ફેક ન્યુઝ ફેલાવવા, રીટ્વિટ કરવા અને જે-તે પોસ્ટને શેર તથા ફોરવર્ડ કરવા માટે થઈ શકે છે, થાય છે.

'વાંધો ચેટબોટની સંકલ્પના સામે નથી,' યુવલ હરારી સ્પષ્ટતા કરે છે, 'જેમ કે AI ડોક્ટર (મેડિકલ ક્ષેત્રનો ચેટબોટ) તો આશીર્વાદરૃપ છે, પણ અહીં આપણને ખબર હોય છે કે હું જેની સાથે ચેટિંગ કરી રહ્યો છું તે હાડમાંસનો બનેલો સાચો ડોક્ટર નથી, પણ એક બોટ છે. ખતરો ત્યારે પેદા થાય છે, જ્યારે બોટની ખરી ઓળખ છુપાવીને તેને અસલી માણસ તરીકે સોશિયલ મીડિયા પર છુટ્ટો મૂકી દેવામાં આવે છે. જ્યારે આપણે સોશિયલ મીડિયા પર કોઈની પણ સાથે વાતચીત કરતા હોઈએ ત્યારે આપણને ખબર હોવી જોઈએ કે સામેવાળો અસલી માણસ છે કે AIએ પેદા કરેલો બોટ છે. જે દેશોમાં લોકશાહી છે ત્યાં AIનો આ પ્રકારનો ઉપયોગ કેટલો ખતરનાક થઈ શકે છે તે વિચારો.'

- શિશિર રામાવત


Like
Comment
Send
Share

Sunday, July 28, 2024

આર્ટિફિશિયલ ઇન્ટેલિજન્સના જમાનામાં ગુજરાતી ભાષા ક્યાં ઊભી છે?

Part #1

ગુજરાતી આર્ટિફિશિયલ ઇન્ટેલિજન્સઃ દિલ્હી દૂર છે, પણ સફર મધુર છે 

વાત વિચાર - ગુજરાત સમાચાર - 13 જુલાઈ 2024

------------------------------

'ઓહ, આઈ ડાઇડ લાફિંગ...' આ વાક્યનો ગુજરાતી અનુવાદ 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ થયું' એમ ન થાય. આ અંગ્રેજી વાક્યનો ગુજરાતી ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં દુખવા લાગ્યું' એવો થવો જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્સથી સજ્જ સિસ્ટમ ગુજરાતી કે કોઈ પણ પ્રાદેશિક ભાષાને પ્રોસેસ કરતી વખતે જે-તે ભાષાની છટાઓ, સૂક્ષ્મતાઓ અને વિરોધિતાઓને બરાબર સમજે તે અનિવાર્ય છે…

---------------------------------------


ચેટજીપીટીનો ધમાકેદાર પ્રવેશ થયો ને તે સાથે આખી દુનિયાના મોઢે આ બે શબ્દો ચડી ગયા - આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI). આ ક્ષેત્રમાં આમ તો દાયકાઓથી કામ થઈ રહ્યું છે, પણ સમજોને કે તે આમઆદમી પાસે નક્કર રીતે છેલ્લાં દોઢ-પોણાબે વર્ષ દરમિયાન પહોંચ્યું છે. ચેટજીપીટી, જેમિની જેવાં AI ટૂલ્સ આજે આપણે છૂટથી વાપરતા થઈ ગયા છીએ. હવે તો વોટ્સએપ પણ 'મેટા એઆઇ' વડે સુસજ્જ છે. કંઈ પણ જાણવું હોય તો આપણે ફટાક્ કરતાં વોટસેએપ પર જઈને મેટા એઆઇ સાથે ચેટિંગ કરી કરી શકીએ છીએ. ફરિયાદ આ છેઃ ચેટજીપીટી અને મેટા એઆઈ પ્રકારનાં ટૂલ્સ, AI વડે સજ્જ ઉપકરણો ને એપ્લિકેશન્સ માત્ર અંગ્રેજીમાં જ હોય તે કેમ ચાલે? આપણી ગુજરાતી ભાષાએ શો ગુનો કર્યો છે? જવાબ એ છે કે ગુજરાતી ભાષાએ કોઈ ગુનો કર્યો નથી. આર્ટિફિશિયલ ઇન્ટેલિજન્સ અને ગુજરાતી ભાષાનું મધુર મિલન લાંબા સમયથી આકાર લઈ રહ્યું છે.

થોડા સમય પહેલાં સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી (એસવીઆઇટી)-વાસદ અને ગુજરાત સાહિત્ય અકાદમીએ સંયુક્તપણે 'ડેવલપમેન્ટ એન્ડ એક્સપાન્શન ઓફ ગુજરાતી લેંગ્વેજ કમ્પ્યુટેશનલ ટૂલ્સ થૂ્ર AI/NLP એપ્લિકેશન્સ' વિષય પર એક રાષ્ટ્રીય પરિસંવાદનું આયોજન કર્યું હતું. આ સેમિનારના આયોજન સાથે સક્રિયપણે સંકળાયેલા પ્રોફેસર બ્રિજેશ પંચાલ કહે છે, 'આર્ટિફિશિયલ ઇન્ટેલિજન્સમાં ગુજરાતી ભાષાના પ્રયોગની વાત કરીએ તો હજુ આપણે પા-પા પગલી ભરી રહ્યા છીએ એમ કહી શકાય. ઇન ફેક્ટ, ભારતની લગભગ તમામ પ્રાદેશિક ભાષાઓની આ જ સ્થિતિ છે. હિન્દી ઉપરાંત તમિળમાં પ્રમાણમાં થોડુંક વધારે કામ થયું છે. તેનું મુખ્ય કારણ કદાચ એ હોઈ શકે કે અમેરિકામાં કાર્યરત કમ્પ્યુટર એન્જિનીયરોમાં તમિળભાષીઓનું પ્રમાણ સારું એવું છે.'

એસવીઆઇટીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટમાં આસિસ્ટન્ટ પ્રોફેસર તરીકે કાર્યરત બ્રિજેશ પંચાલમાં એક ઉત્તમ કોમ્બિનેશન થયું છે. તેઓ ઉત્સાહી રિસર્ચર પણ છે અને સાથે સાથે ગુજરાતી કવિ ને લેખક પણ છે. આ સેમિનારમાં લોકભારતી સણોસરા યુનિવર્સિટી પ્રો-વાઇસ ચાન્સેલર વિશાલ ભાદાણીએ પોતાના પ્રેઝન્ટેશન દરમિયાન કહેલું કે, 'દુનિયાભરમાં હાલ આશરે સાત હજાર જેટલી બોલીઓ (સ્પોકન લેંગ્વેજીસ) છે, જેમાંથી ફક્ત ૨૦ ભાષાઓ હાઇ રિસોર્સ લેંગ્વેજીસ (એચઆરએલ) છે, જ્યારે બાકીની બધી લૉ રિસોર્સ લેંગ્વેજીસ (એલઆરલએલ) છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સના સંદર્ભમાં આપણી ગુજરાતી ભાષા હાલ લૉ રિસોર્સ લેંગ્વેજ ગણાય. સવાલ એ છે કે આપણે ગુજરાતીને હાઇ રિસોર્સ લેંગ્વેજ શી રીતે બનાવી શકીશું?'

વડોદરાની મહારાજા સયાજીરાવ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્જિનીયરિંગ ડિપાર્ટમેન્ટના હેડ પ્રોફેસર ડૉ. અપૂર્વ શાહ આર્ટિફિશિયલ ઇન્ટેલિજન્સના પૂરજેપૂરજા છુટ્ટા પાડીને કહે છે, 'AI એટલે કમ્પ્યુટર સાયન્સ, કોગ્નિટિવ સાયન્સ (મનુષ્યના મન અને દિમાગ - માઇન્ડ અને બ્રેઇનનો અભ્યાસ), સાઇકોલોજી, ફિલોસોફી, લિંગ્વિસ્ટીક્સ (ભાષાવિજ્ઞાાન) અને ન્યુરોસાયન્સનું મિશ્રણ... અન એઆઇના પાયામાં આ ત્રણ ગાણિતીક તત્ત્વો છે - કમ્પ્યુટેશન, લોજિક અને પ્રોબેબિલિટી.'

ભારતમાં સ્માર્ટફોન વાપરનારાઓની સંખ્યા 65 કરોડના આંકડાને ક્યારની પાર કરી ગઈ છે. આમાંના કેટલાય સ્માર્ટફોનધારકો એવા છે જેમને અંગ્રેજીમાં બોલતાં ભલે ન ફાવતું હોય, પણ પોતાની માતૃભાષામાં તેઓ સરસ રીતે કમ્યુનિકટ કરી શકે છે. આ વર્ગ માટે એવાં AI સ્પીચ એન્જિન ટૂલની જરૃર હોવાની કે જેમાં ભારતીયો પોતાની માતૃભાષામાં બોલીને વોઇસ એપ્લિકેશન્સ સાથે ઇન્ટરેક્ટ કરી શકે. વ્યાવહારિક સ્તરે કમ્પ્યુટર માણસ કરતાં વધારે બુદ્ધિશાળી છે, તે માણસના મગજ કરતાં વધારે ડેટા સંગ્રહી શકે છે અને તેને ઉપયોગમાં મૂકી શકે છે, તેની કમ્પ્યુટેશનલ સ્પીડ માણસ કરતાં અનેકગણી વધારે છે એવું આપણે સ્વીકારી લીધું છે. તેથી આપણે કમ્પ્યુટર સાથે મૌખિક કે લિખિત રીતે 'વાત' કરતાં હોઈએ ત્યારે આપણને અપેક્ષા હોય છે કે આપણે જે કંઈ બોલીએ છીએ કે ટાઇપ કરીએ છીએ તે બધું જ કમ્પ્યુટર સાચેસાચું અને વધારે સારી રીતે સમજે. મોટા ભાગના ગુજરાતીઓ સ-શ-ષ આ ત્રણ અક્ષરોના શુદ્ધ ઉચ્ચારણ કરતા નથી. છતાંય હું મારી રોજિંદી બોલીમાં કહું કે 'મહેસ અને સીતલનાં લગ્ન થયાં' તો પણ ઇન્ટેલિજન્ટ કમ્પ્યુટરને ખબર પડી જવી જોઈએ કે હું ખરેખર 'મહેશ અને શીતલ' વિશે વાત કરી રહ્યો છું. તમે 'તોતેર' બોલો, 'તોંતેર' બોલો કે 'ત્યોંતેર' બોલો, કમ્પ્યુટર ખબર પડી જવી જોઈએ કે તમારા કહેવાનો મતલબ ૭૩ છે. તમે 'સાઠ', 'સાંઠ' કે 'સાંઇઠ' કંઈ પણ બોલો, કમ્પ્યુટરે તો ૬૦ જ સમજવાનું છે. આનો સાદો અર્થ એ થયો કે ગુજરાતી બોલનારની લઢણ કોઈ પણ હોય - કાઠિયાવાડી, અમદાવાદી, સુરતી, મહેસાણી, કોઈ પણ - કમ્પ્યુટરે કન્ફ્યુઝ નહીં થવાનું ને સાચો જ જવાબ આપવાનો!

આ આપણી મૂળભૂત અપેક્ષા છે, ગુજરાતી AI ટેકનોલોજી પાસેથી. આપણે એવુંય ઇચ્છીએ છીએ કે આપણે બંગાળી, તેલુગુ, ફ્રેન્ચ, ઇટાલિયન કે કોઈ પણ ભાષાનું લખાણ યા ઓડિયો ક્લિપ AI ટેકનોલોજીથી સુસજ્જ કમ્પ્યુટરમાં ફીડ કરીએ તો તરત જ, રીઅલ ટાઇમમાં, સહેજ પણ ભૂલ વગરનો ગુજરાતી અનુવાદ આપણને મળી જાય. એવું જ એનાથી ઊલટું પણ થવું જોઈએ. ગુજરાતી ભાષામાંથી અન્ય કોઈ પણ ભાષામાં પટ્ પટ્ પટ્ કરતો રિવર્સ - અને ટકોરાબંધ - અનુવાદ થઈ જાય તો કેવી મજા પડે.

ભાષાઓની પોતાની આગવી છટા, આગવો વૈભવ હોય છે. કમ્પ્યુટરનું આર્ટિફિશિયલ ઇન્ટેલિજન્સ જ્યારે ભાષાને પ્રોસેસ કરે ત્યારે તે જે-તે ભાષાની સૂક્ષ્મતાઓને, વિરોધિતાઓ અને પ્રતીકાત્મકતાને પણ સમજે તે જરૃરી છે. એક ઉદાહરણ લઈએ. કોઈ મા પોતાના દીકરાનાં તોફાનોથી ત્રાસીને ધારો કે એવું બોલે છે કે, 'બસ બહુ થયું... મારું લોહી ન પી.' અહીં 'લોહી પીવું' તે એક રૃઢિપ્રયોગ છે. લોહી પીવાની ક્રિયાને કંઈ શબ્દશઃ લેવાની ન હોય.

આર્ટિફિશિયલ ઇન્ટેલિજન્ટ સિસ્ટમને તેની ખબર હોવી જોઈએ. એટલે જો મમ્મીના આ ઉદ્ગારનો 'ઇનફ... ડોન્ટ સક માય બ્લડ' એવો અંગ્રેજી અનુવાદ થાય તો સિસ્ટમ ઇન્ટેલિજન્ટ નહીં, ઇડિયટ લાગે. એ જ રીતે અંગ્રેજીમાં એવું વાક્ય હોય કે 'ઓહ, આઈ ડાઇડ લાફિંગ...' તો એનો ગુજરાતી અનુવાદ એવો ન થવો જોઈએ કે 'ઓહ, હસતાં હસતાં મારૃં મૃત્યુ થયું.' આ અંગ્રેજી વાક્યનો ગુજરાતી અનુવાદ નહીં, પણ ભાવાનુવાદ 'ઓહ, હસતાં હસતાં મારા પેટમાં દુખવા લાગ્યું' એવો થવો જોઈએ. આર્ટિફિશિયલ ઇન્ટેલિજન્ટ સિસ્ટમ એટલી હદે સુસજ્જ હોવી જોઈએ કે એને જે-તે ભાષાના અપશબ્દોની પણ પાક્કી ખબર હોય. જો આપણને નબળું, વિચિત્ર ગૂગલ ટ્રાન્સલેશન પણ ચલાવી લેતા ન હોઈએ તો આર્ટિફિશિયલ ઇન્ટેલિજન્સ ટેક્નોલોજીથી સજ્જ એપ કે ટૂલ પાસેથી કાચુંપાકું ટ્રાન્સલેશન શા માટે ચલાવી લઈએ?

ગુજરાતી આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત કરીએ તો પ્રણવ મિસ્ત્રીની ટુ એઆઇ (TWO AI) કંપની દ્વારા લોન્ચ થયેલા ચેટસૂત્ર (ChatSUTRA)ને અજમાવવા જેવું છે. પ્લેસ્ટોર પરથી આ એપ આસાનીથી ડાઉનલોડ થઈ જશે. ચેટજીપીટી પ્રકારની આ AI એપ છે, જે તમે ગુજરાતીમાં પૂછેલા સવાલોના શુદ્ધ ગુજરાતીમાં જવાબો આપે છે. અલબત્ત, હજુ ચેટસૂત્રના ગુજરાતી વર્ઝનમાં પરફેક્શન આવતાં ઘણી વાર લાગવાની છે, પણ આ સાચી દિશામાં થયેલો ઉત્તમ પ્રયાસ છે એ તો નક્કી. ભારતનું નેશનલ AI પોર્ટલ INDIAai પણ આ દિશામાં નક્કરપણે આગળ વધી રહ્યું છે. ગુજરાતી ઉપરાંત એકાધિક ભારતીય ભાષાઓમાં અહીં સમાંતરે કામ થઈ રહ્યું છે.

ભાષાઓના સંદર્ભમાં આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત ચાલતી હોય ને NLP (નેચરલ લેંગ્વેજ પ્રોસેસિંગ) તથા મશીન લર્નિંગની ચર્ચા ન કરીએ તે કેમ ચાલે? તેના વિશે હવે પછી વાત કરીશું.

- શિશિર રામાવત

000000000

Part #2

અંગ્રેજી જેવું જ અફલાતૂન ગુજરાતી ચેટજીપીટી હોત તો... (Part 2)

------------------

ચેટજીપીટી જેવું એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

------------------------

વાત વિચાર - એડિટ પેજ - ગુજરાત સમાચાર - 20 જુલાઈ 2024

------------------------

ચેટજીપીટી વાપરનાર પ્રત્યેક ગુજરાતીને ક્યારેક તો વિચાર આવી જ જતો હશેઃ ચેટજીપીટી ગુજરાતીમાં પણ અંગ્રેજીની જેમ જ મસ્તમજાની રીતે ઓપરેટ થતું હોય તો કેવો જલસો પડે! ચેટજીપીટી એ આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI)નું સૌથી લોકપ્રિય ટૂલ છે. આર્ટિફિશિયલ ઇન્ટેલિજન્સની વાત આવે ત્યારે ભેગેભેગા મશીન લર્નિંગ (ML) અને ડીપ લર્નિંગ (DL) જેવા શબ્દો પણ ઉછળતા રહે છે. શું છે તે?

આર્ટિફિશિયલ ઇન્ટેલિજન્સને વિરાટ છત્રી કલ્પી લો. આ એક એવી ટેકનોલોજિકલ વિદ્યા છે જે બુદ્ધિશાળી મશીનોનું સર્જન કરે છે. AIની નીચે મશીન લર્નિંગ ઊભું છે. મશીન લર્નિંગ એવી સિસ્ટમ છે જે અનુભવના જોરે જાતે શીખતી જાય છે. મશીન લર્નિંગની છત્રી નીચે ઓર એક ચીજ ઊભી છે - ડીપ લર્નિંગ. ડીપ લર્નિંગ એવી સિસ્ટમ છે, જે જુદાં જુદાં નેટવર્ક્સનો ઉપયોગ કરીને ડેટા પ્રોસેસ કરે છે. ટૂંકમાં, આર્ટિફિશિયલ ઇન્ટેલિજન્સ એક વિરાટ ચંદરવો છે, જેની નીચે ડીપ લર્નિંગ અને મશીન લર્નિંગ બન્ને સ્થાન પામે છે.

મુખ્ય વિષય પર પહોંચતા પહેલાં એ પણ જાણી લો કે ન્યુરલ નેટવર્ક એટલે શું. ન્યુરલ નેટવર્ક એ AIની એવી પદ્ધતિ કે જેના થકી કમ્પ્યુટર માણસના દિમાગની જેમ ડેટાને પ્રોસેસ કરતાં શીખે છે. ન્યુરલ નેટવર્ક માણસની ઓછામાં ઓછી મદદ લઈને ઇન્ટેલિજન્ટ નિર્ણયો લેવામાં કમ્પ્યુટરને મદદ કરે છે. ધારો કે, કમ્પ્યુટરને બે જુદા જુદા ઇનપુટ મળે છે-

(૧) મને જણાવો કે હું પેમેન્ટ કેવી રીતે કરી શકું?

(૨) હું પૈસા ટ્રાન્સફર શી રીતે કરી શકું?

અહીં પૂછવાની રીત અલગ છે, પણ ન્યુરલ નેટવર્ક તરત સમજી જશે કે સવાલ તો એક જ પૂછાયો છે. ન્યુરલ નેટવર્કના ઉપયોગ ઘણી જગ્યાએ થાય છે. જેમ કે, મેડિકલ ઇમેજ ક્લાસિફિકેશન દ્વારા જે-તે બીમારીનું નિદાન કરવું, સોશિયલ નેટવર્ક ફિલ્ટર અને બિહેવિયર ડેટા એનેલિસિસ દ્વારા ટાર્ગેટેડ માર્કેટિંગ કરવું, ભૂતકાળના ડેટા અને ફાયનાન્શિયલ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને આર્થિક આગાહીઓ કરવી, કેમિકલ કમ્પાઉન્ડ્સને આઇડેન્ટિફાય કરવી ઇત્યાદિ.

નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP)માં પણ ન્યુરલ નેટવર્કનો ભરપૂર ઉપયોગ થાય છે. નેચર લેંગ્વેજ પ્રોસેસિંગ કઈ ચિડિયાનું નામ છે ભલા? જાવા, પાયથન, સી પ્લસ-પ્લસ આ બધી કમ્પ્યુટર લેંગ્વેજીસ છે. આમાંની કોઈ પણ ભાષામાં કોડિંગ કરવામાં આવે એટલે કમ્પ્યુટરને પાક્કી સૂચના મળે કે એણે શું કરવાનું છે. પણ આ તો કમ્પ્યુટર પ્રોગ્રામિંગ કે કોડિંગ થયું. તે કંઈ બધાને ન આવડે. આમ આદમી તો એમ જ ઇચ્છે છે કે કમ્પ્યુટરને એની સીધીસાદી, રોજિંદા વપરાશની ભાષા આવડવી જોઈએ. કમ્પ્યુટર તે સમજે પણ છે અને સાધારણ ભાષામાં અપાયેલી સૂચનાનો અમલ પણ કરે છે. આ જ નેચરલ લેંગ્વેજ પ્રોસેસિંગ છે. NLP આર્ટિફિશિયલ ઇન્ટેલિજન્સનું બહુ મહત્ત્વનું અંગ છે. સિરી અને એલેક્સા જેવા વોઇસ-કંટ્રોલ્ડ આસિસ્ટન્ટ્સ એ NLPનાં ઉત્તમ ઉદાહરણો છે. જુદી જુદી વેબસાઇટ્સ પર દેખાતા ચેટબોટ પણ NLPના જોરે કામ કરે છે.

અંગ્રેજી ચેટજીપીટી જેવું જ ફાંકડું ગુજરાતી ચેટજીપીટી હોવું જોઈએ - જો તમારા મનમાં પણ આવી ફુલગુલાબી ઝંખના જાગતી હોય તો સમજી લો કે ચેટજીપીટી જેવા એડવાન્સ્ડ લાર્જ લેંગ્વેજ મોડલ (LLM) સુધી પહોંચતા પહેલાં સૌથી પહેલાં તો ગુજરાતીમાં ફાંકડી નેચરલ લેંગ્વેજ પ્રોસેસિંગ સિસ્ટમ વિકસાવવી પડે... અને આ દિશામાં વર્ષોથી કામ થઈ જ રહ્યું છે.

ગુજરાતી NLP સિસ્ટમ વિકસાવવાની શરૃઆત ક્યારે થઈ હતી? પ્રાપ્ય માહિતીના આધારે, સંભવતઃ સૌથી પહેલું નામ સમીર અંતાણીનું સામે આવે છે. અમેરિકાની પેન્સિલવેનિયા સ્ટેટ યુનિવર્સિટીના કમ્પ્યુટર સાયન્સ એન્ડ એન્જિનીયરિંગ ડિપાર્ટમેન્ટમાં કાર્યરત આ રિસર્ચરે છેક ૧૯૯૯માં 'ગુજરાતી કેરેક્ટર રેકગ્નિશન' નામનું રિસર્ચ પેપર પ્રકાશિત કર્યું હતું. એમના સાથી રિસર્ચર હતાં, લલિતા અગ્નિહોત્રી (ફિલિપ્સ રિસર્ચ બ્રિઆર્કલિફ, ન્યુ યોર્ક). ૨૦૦૬માં પ્રોફેસર એસ.કે. શાહ અને એ. શર્માએ સંયુક્તપણે પેપર પ્રકાશિત કર્યું, જેનું શીર્ષક હતું, 'ડિઝાઇન એન્ડ ઇમ્પ્લિમેન્ટેશન ઓફ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન સિસ્ટમ ટુ રેકગ્નાઇઝ ગુજરાતી સ્ક્રિપ્ટ યુઝીંગ ટેમ્પલેટ મેચિંગ'. ત્યાર બાદ ૨૦૦૭માં 'વેવલેટ ફિચર બેઝ્ડ કન્ફ્યુઝન કેરેક્ટર સેટ્સ ફોર ગુજરાતી સ્ક્રિપ્ટ' નામનું રિસર્ચ પેપર પ્રકાશિત થયું, જેના લેખકો હતા જીજ્ઞેશ ધોળકિયા (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ મેથ, એમ.એસ. યુનિવર્સિટી- વડોદરા), અર્ચિત યાજ્ઞિાક (ડિપાર્ટમેન્ટ ઓફ એપ્લાઇડ આર્ટ્સ, પારૃલ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજી-વડોદરા) અને અતુલ નેગી (ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર એન્ડ ઇન્ફો સાયન્સીસ, યુનિવર્સિટી ઓફ હૈદરાબાદ). ૨૦૧૦થી ડૉ. અપૂર્વ દેસાઈનાં રિસર્ચ પેપર્સ કતારબદ્ધ પ્રકાશિત થતાં ગયાં. ૧૯૯૪થી વીર નર્મદ સાઉથ ગુજરાત યુનિર્વસિટીમાં કાર્યરત પ્રોફેસર (ડૉ.) અપૂર્વ દેસાઈ ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ છે. એમનું સૌથી પહેલું પેપર હતું, 'ગુજરાતી હેન્ડરિટન ન્યુમરલ ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન through ન્યુરલ નેટવર્ક'.

ગુજરાતી NLPની વાત આવે ત્યારે ડો. અપૂર્વ દેસાઈ અને અને પ્રોફેસર પુષ્પક ભટ્ટાચાર્ય (આઇઆઇટી-બોમ્બે)નાં નામ આદરપૂર્વક લેવાં પડે, કેમ કે આ ક્ષેત્રમાં તેમણે ખૂબ મહત્ત્વપૂર્ણ અને પાયારૃપ કામ કર્યાં છે. ડો. ભટ્ટાચાર્યે વર્ડનેટ નામનો લેક્સિકન ડેટાબેઝ તૈયાર કર્યો છે. આ કામ કરવામાં એમને પ્રોફેસર સી.કે. ભેંસડેડીયા અને પ્રોફેસર બ્રિજેશ ભટ્ટનો મજબૂત સાથ મળ્યો હતો.

'ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન (OCR) એ નેચરલ લેંગ્વેજ પ્રોસેસિંગનો જ એક ભાગ છે,' ડો. અપૂર્વ દેસાઈ કહે છે, 'OCR થકી કમ્પ્યુટર હસ્તલિખિત ગુજરાતી અક્ષરોને ઓળખી લે છે. તમે નોટપેડ પર સ્ટાઇલસ (પેન જેવા ઉપકરણ)થી ગુજરાતીમાં લખો તો તેને ટેક્સ્ટમાં કન્વર્ટ કરી દેવું, સાદાં ગુજરાતી વાક્યોના વ્યાકરણનું એનેલિસિસ કરીને એનું કલર કોડિંગ કરવું વગેરે કામ અમે કર્યાં છે. સ્ટિલ ઇમેજ એટલે કે તસવીરમાં છપાયેલા આંકડાને ઓળખીને અલગ તારવી લેવા, વીડિયોમાં દેખાતા ગુજરાતી શબ્દોને એનેલાઇઝ કરીને છૂટા પાડવા - આ બધાં કામ હજુ ચાલી રહ્યાં છે.'

ગુજરાતી NLPના રિસર્ચરો સામે સૌથી પહેલી ઊભી થતી સમસ્યા આ છેઃ લેંગ્વેજ મોડલને ટ્રેઇન કરવામાં ઉપયોગી બને તેવો શુદ્ધ ગુજરાતી લખાણનો વિશાળ ડેટાસેટ ઉપલબ્ધ નથી! ઓનલાઇન ગુજરાતી કોન્ટેન્ટ તો પુષ્કળ અવેલેબલ છે, પણ ભાષા, જોડણી તેમજ વ્યાકરણની દ્રષ્ટિએ તે શુદ્ધ હોતું નથી. જ્યારે તમે NLP મોડલ બનાવી રહ્યા હો ત્યારે કમ્પ્યુટરના પેટમાં કાચીપાકી ગુજરાતી ભાષા ઠૂંસી દો તે કેમ ચાલે? કમ્પ્યુટરને શરૃઆતથી જ શુદ્ધતમ ગુજરાતી ભાષા શીખવીએ તો જ એ સંતોષકારક પરિણામ આપે. આપણે સાચી જોડણી અને સાચા વ્યાકરણવાળી ગુજરાતી ભાષામાં જવાબો ઇચ્છતા હોઈએ તો NLP મોડલમાં ચોખ્ખામાં ચોખ્ખો ગુજરાતી ડેટા ફીડ કરવો પડે. આ દ્રષ્ટિએ ભગવદ્ગોમંડળ એક ઉત્તમ ડેટાસેટ છે, પણ કોણ જાણે કેમ, રિસર્ચરો માટે તે ઉપલબ્ધ નથી.

'ધારો કે ભગવદ્ગોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તે પૂરતું નથી,' ડો. અપૂર્વ દેસાઈ કહે છે.

કેમ? ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કરવા મથી રહેલા રિસર્ચરોને સામે કેવા કેવા અવરોધો ઊભા થતા રહે છે? આ અવરોધો દૂર કરવાના ઉપાયો ખરા? આના જવાબો હવે પછી.


00000000000

Part #3 

ગૂગલ ટ્રાન્સલેશન એપ ગુજરાતી અનુવાદમાં ગરબડ કેમ કરે છે? (પાર્ટ 3)


વાત-વિચાર - એડિટ પેજ - ગુજરાત સમાચાર (July 27, 2024)

---------------------------

'ગુજરાતી ભાષાને બચાવવા માટે ગુજરાતીમાં બોલવું-લખવું-પુસ્તકો છાપવાં-ગુજરાતી ફિલ્મો-નાટકોને ઉત્તેજન આપવું... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. ગુજરાતી ભાષાને જો જીવતી-ધબકતી રાખવી હશે તો તેને વહેલાસર આધુનિક ટેકનોલોજી સાથે જોડયા વગર નહીં ચાલે.'



આપણે જો ઇચ્છતા હોઈએ કે આટફિશિયલ ઇન્ટેલિજન્સ (AI)નો ઉપયોગ જેમાં થયો હોય તેવાં ટૂલ્સ, ચેટબોટ વગેરે અંગ્રેજીની જેમ ગુજરાતીમાં પણ મસ્ત રીતે, બિલકુલ સ્મૂધલી ઓપરેટ થાય તો તે માટે નિષ્ણાતોએ હજુ અભિમન્યુની જેમ ઘણા કોઠા ભેદવાના બાકી છે. આપણે ગયા શનિવારે જોયું કે ચેટજીપીટી એ એ AIની સૌથી લોકપ્રિય એપ્લિકેશન છે. ચેટજીપીટી એક લાર્જ લેંગ્વેજ મોડલ (LLM) છે, અને ત્યાં સુધી પહોંચવા માટે ગુજરાતી ભાષાએ સૌથી પહેલાં તો અફલાતૂન નેચરલ લેંગ્વેજ પ્રોસેસિંગ (NLP) મોડલ વિકસાવવા પડે. NLP મોડલ એટલે આપણે રોજબરોજ જે ગુજરાતી ભાષા બોલીએ-લખીએ છીએ તે કમ્પ્યુટર ભૂલ વગર સમજી લે, તેવું સોફ્ટવેર.કમ્પ્યુટરને ગુજરાતી ભાષા શીખવતી વખતે લખાણનો જે ડેટાસેટ ઉપયોગમાં લેવામાં આવે તે જોડણી અને વ્યાકરણની દ્રષ્ટિએ શુદ્ધતમ હોય તે ખૂબ જરૂરી છે. ભગવોમંડળ અને સાર્થ જોડણી કોષ આ પ્રકારના આદર્શ ડેટાસેટ છે. તકલીફ એ છે કે લેંગ્વેજ મોડલને ટ્રેઇન કરવા માટે રિસર્ચરો માટે આ બન્ને સોર્સની સોફ્ટ કોપી યા તો એક્સેલ ફાઈલ્સ ઉપલબ્ધ નથી!
વીર નર્મદ સાઉથ ગુજરાત યુનિવર્સિટીના ડિપાર્ટમેન્ટ ઓફ કમ્પ્યુટર સાયન્સના હેડ ડો. અપૂર્વ દેસાઈ કહે છે, 'ઘારો કે ભગવોમંડળ અને તે કક્ષાના અન્ય ડેટાસેટ મળે તો પણ તેને પ્રોસેસ કરીને આખો ડેટાબેઝ તૈયાર કરવો પડે. તમને ઉદાહરણ આપીને સમજાવું. 'છોકરો' અને 'છોકરી' આ બે શબ્દોનું મૂળ રૂપ 'છોકર' છે. 'છોકર'ને 'ઓ' પ્રત્યય લાગે તો 'છોકરો' બને, અને 'ઈ' પ્રત્યય લાગે તો 'છોકરી' બને. શબ્દના મૂળ રૂપ સુધી જવાની પ્રક્રિયાને 'સ્ટેમિંગ' કહે છે. એક એવો ડેટાસેટ હોવો જોઈએ, જેમાં પ્રત્યેક ગુજરાતી શબ્દનું મૂળ રૂપ લખાયેલું હોય. સ્ટેમિંગ પછી 'ટેગિંગ'ની પ્રક્રિયા કરવી પડે. ટેગિંગ એટલે જે-તે શબ્દ સંજ્ઞા(નાઉન) છે, ક્રિયાપદ (વર્બ) છે કે વિશેષણ (એડજેક્ટિવ) ઇત્યાદિ છે તે ચિહ્નિત કરવું. ધારો કે આવું વાક્ય છે: 'રવિ નામનો છોકરો હતી.' આ ખોટું વાક્ય છે. કમ્પ્યુટરને ખબર હોવી જોઈએ કે રવિ એક નામ (સંજ્ઞા) છે અને તે પુલ્લિંગ છે, તેથી આ વાક્યના અંતે 'હતી' નહીં પણ 'હતો' આવે. જો વ્યવસ્થિત સ્ટેમિંગ અને ટેગિંગ સાથેનો ડેટાસેટ પ્રોસેસ થયો હોય તો જ કમ્પ્યુટરને ખબર પડે કે ગુજરાતી વાક્યમાં નાઉન - વર્બ કયા છે, એની સિકવન્સ કેવી હોવી જોઈએ અને તે વ્યાકરણને અનુરૂપ છે કે કેમ. અમે આ પ્રકારનો આવશ્યક ડેટાસેટ વિકસાવ્યો છે, પણ તે સરળ વાક્યો પૂરતો સીમિત છે.'
અંગ્રેજીમાં બે જ જાતિ (જેન્ડર) છે - સ્ત્રીલિંગ અને પુલ્લિંગ, જ્યારે ગુજરાતીમાં ત્રીજી નાન્યતર જાતિ પણ છે. તેથી ગુજરાતી NLP ડેવલપ કરવાનું કામ પણ વધારે જટિલ બની જાય છે. પ્રોફેસર બ્રિજેશ ભટ્ટ આ વાત વિગતવાર સમજાવે છે, 'ગુજરાતીમાં પુલ્લિંગ, સ્ત્રીલિંગ અને નપુંસકલિંગ એમ ત્રણેય જાતિના પ્રત્યય ક્રિયાપદને પણ લાગે છે. જેમ કે 'રાજેશ આવ્યો', 'ગીતા આવી', 'કૂતરૂં આવ્યું'. અંગ્રેજીમાં જ્યારે 'Rajesh comes' કે 'Geeta comes' કહીએ ત્યારે કોઈ લિંગભેદ દેખાતો નથી, પણ અંગ્રેજીમાંથી ગુજરાતીમાં વાક્યનું ભાષાંતર કરીએ ત્યારે મશીને આ લિંગભેદ જાતે નક્કી કરવો પડે. આ ઉપરાંત ગુજરાતીમાં પ્રેરક વાક્ય એક વિશિષ્ટ રચના છે, જે અંગ્રેજી અનુવાદ કરવામાં મુશ્કેલી ઊભી કરે છે. ઉદાહરણ તરીકે આ વાક્ય: 'ગીતાએ લતા પાસે ગીત ગવડાવ્યું'. હવે, 'ગવડાવ્યું' શબ્દનું ભાષાંતર કરવા માટે અંગ્રેજીમાં એક કરતાં વધારે શબ્દોનો ઉપયોગ કરવો પડે (Geeta made Lata sing). ગુજરાતી અને અંગ્રેજીના શબ્દોની ગોઠવણી પણ અલગ છે. અંગ્રેજીમાં સામાન્યપણે સબ્જેક્ટ, વર્બ, ઓબ્જેક્ટ - આ ક્રમમાં વાક્ય બનાવવામાં આવે છે (Ram eats an apple), જ્યારે ગુજરાતીમાં કર્તા, કર્મ અને ક્રિયાપદ - આ પ્રમાણે વાક્ય ગોઠવાય છે (રામે સફરજન ખાધું). ભાષાંતર કરતી વખતે મશીને ગોઠવણની આ ફેરબદલ પણ ધ્યાનમાં લેવી પડે.'
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં કાર્યરત ડો. બ્રિજેશ ભટ્ટે આઈઆઇટી-બોમ્બેના પ્રોફેસર પુષ્કર ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ નેચરલ લેંગ્વેજ પ્રોસેસિંગ વિષયમાં પીએચ.ડી કર્યું છે. તેઓ ગુજરાતી NLPની ટેકનિકલ બાજુને સરળતાથી સહેજ વધારે ઊઘાડી આપે છે, 'જુઓ, ગુજરાતીમાં નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ સોફ્ટવેર બનાવવા માટે ત્રણ તબક્કામાં કામ કરવું પડે. એક છે, લેક્સિકલ (શબ્દાનુવાદ), બીજું છે સિન્ટેક્ટિક (વાક્યરચના) અને ત્રીજું, સિમેન્ટિક (અર્થઘટન). લેક્સિકલ તબક્કામાં શબ્દો, તેને લાગતા પ્રત્યયો અને જો ભાષાંતર કરવું હોય તો બીજી ભાષાનો શબ્દો જાણવા પડે. મોર્ફોલોજીકલ એનેલિસિસ એ લેક્સિકલ પ્રોસેસિંગનું પહેલું પગથિયું છે. ઉદાહરણ તરીકે, 'ગવડાવ્યું' આ શબ્દનું મૂળ રૂપ 'ગાવું' છે અને તેને 'ડાવ્યું' પ્રત્યય લાગ્યો છે, એવું મોર્ફોલોજી એનેલિસિસ દ્વારા મશીનને સમજાવી શકાય. બીજા તબક્કામાં વાક્યનું બંધારણ ચકાસવું પડે, જેના માટે પાર્ટ ઓફ સ્પીચ ટેગિંગ, પાર્સીંગ જેવા સોફ્ટવેરની જરૂર પડે. પાર્ટ ઓફ સ્પીચ ટેગર વાક્યમાં આવતા શબ્દોમાં નામ, ક્રિયાપદ, વિશેષણ વગેરે ઓળખી બતાવે, અને પાર્સર વાક્યમાં રહેલા શબ્દો એકબીજા સાથે કેવી રીતે જોડાઇને અર્થ બનાવે છે તે કહી શકે. ઉદાહરણ તરીકે, 'રામે ગીત ગાતા શ્યામને જોયો'. અહીં ગીત રામ ગાય છે કે શ્યામ? તે સમજવામાં ગોટાળો થઇ શકે. પાર્સર શબ્દોને એકબીજા સાથે જોડી અર્થઘટનમાં થતી ગરબડને દૂર કરે છે. છેલ્લા સિમેન્ટિક તબક્કામાં, શબ્દોના અર્થ અને તે અર્થોથી પૂરા વાક્યનો અર્થ કાઢવો પડે. એક શબ્દના ઘણા અર્થ હોઈ શકે છે. તેથી જ વર્ડ સેન્સ ડિસએમ્બિગ્યુએશન એ કદાચ NLPનો સૌૈથી અઘરો વિષય છે. જેમ કે, 'મારો ફોટો પડી ગયો' અને 'મારો મોબાઇલ પડી ગયો' આ બંને વાક્યોમાં 'પડી ગયો'નો અર્થ અલગ છે. આ પ્રકારના ગુજરાતી શબ્દપ્રયોગોનો અન્ય ભાષામાં અનુવાદ કરતી વખતે મશીન બાપડું ચકરાવે ન ચડી જાય અને અર્થનો અનર્થ ન કરી નાખે તેનું ધ્યાન રાખવું પડે.'
ગૂગલ ટ્રાન્સલેશન એપમાં ગુજરાતી વાક્યોના અંગ્રેજીમાં ને અંગ્રેજી વાક્યોના ગુજરાતીમાં ચક્રમ જેવા અનુવાદ થાય છે તેનું કારણ આ જ! અત્યારે ઉપકરણોમાં જે ગુજરાતી NLP વપરાય છે તેમાં ઉપર વર્ણવી તે ટેકનિકલ પ્રક્રિયાઓ પર પૂરતું કામ જ થયું નથી. પછી બિચારું મશીન ભાષાંતર કરવામાં લોચા જ મારેને! વળી, આપણે ગુજરાતી ભાષા બોલતી કે લખતી વખતે છૂટથી અંગ્રેજી-હિન્દી શબ્દો ભભરાવતા હોઈએ છીએ. નેચરલ લેન્ગ્વેજ પ્રોસેસિંગ માટે આવી ખિચડી ભાષા પાછો એક અલગ જ પડકાર છે.
નડિયાદ સ્થિત ધર્મસિંહ દેસાઇ યુનિવર્સિટીમાં પ્રો. સી. કે. ભેંસદડીયાના નેતૃત્વમાં ગુજરાતી વર્ડનેટ અને ઇંગ્લિશ-ગુજરાતી મશીન ટ્રાન્સલેશન સંબંધિત કામ થાય છે. પ્રો. ભેંસદડીયા લગભગ છેલ્લાં ૩૦ વર્ષથી AIના ક્ષેત્રમાં વિદ્યાર્થીઓને તૈયાર કરી રહ્યા છે. તેમની સાથે પ્રો. બ્રિજેશ ભટ્ટ નેચરલ NLP પર કાર્ય કરી રહ્યા છે. પ્રો. ભેંસદડીયાએ આઇઆઇટી-બોમ્બેના પ્રો. પુષ્પક ભટ્ટાચાર્યના ગાઇડન્સ હેઠળ એમટેક કર્યું છે. હાલ બન્ને નિષ્ણાત ડીપ લનગ બેઝ્ડ ન્યુરલ મશીન ટ્રાન્સલેશન પદ્ધતિથી અંગ્રેજીથી ગુજરાતી અનુવાદની સિસ્ટમ બનાવવામાં કાર્યરત છે.
ઘણું કામ છે, લાંબી સફર છે. કમ્પ્યુટરને ગુજરાતી શીખવવાનું કામ ઘણાં વર્ષોથી ત્રણ સ્તરે કામ થઈ રહ્યું છે - એકેડેમિશિયન્સ દ્વારા, સરકાર દ્વારા અને ગૂગલ-માઇક્રોસોફ્ટ જેવી જાયન્ટ કંપનીઓ દ્વારા. તકલીફ એ છે કે આ ત્રણેયને જોડતી કડીઓ કાં ગાયબ છે યા તો બહુ ઓછી છે. તેથી છૂટુંછવાયું કામ થતું રહે છે, પણ ત્રણેય જૂથને એકબીજાના જ્ઞાનનો લાભ જેટલો મળવો જોઈએ તેટલો મળતો નથી.
વાસદ સ્થિત સરદાર વલ્લભભાઈ ઇન્સ્ટિટયુટ ઓફ ટેકનોલોજીના કમ્પ્યુટર સાયન્સ ડિપાર્ટમેન્ટના આસિસ્ટન્ટ પ્રોફેસર Brijesh Panchal કહે છે, 'ભાષા અને ટેકનોલોજી બન્ને જાણતા હોય તેવા લોકો બહુ ઓછા છે. વિદેશમાં આ બન્ને ક્ષેત્રોને સાંકળી લે તેવા કોમ્પોઝિટ કોર્સ ચાલે છે, જે આપણે ત્યાં પણ હોવા જોઈએ. આપણે બીએ-એમએના વિદ્યાર્થીઓને કહેવું જોઈએ કે તમે માત્ર ટીચર કે એવું કશું જ નહીં, ભાષાશાસ્ત્રી પણ બની શકો છો. કમ્પ્યુટર એન્જિનીયરિંગ ભણતા વિદ્યાર્થીઓને ભાષાવિજ્ઞાાન તરફ આકર્ષણ હોતું નથી. તેમને પણ કહેવું જોઈએ કે જો તમે ગુજરાતી પુસ્તકો વાંચશો તો NLPમાં વધારે સમજ પડશે.'
અપૂર્વ દેસાઈ કહે છે, 'એક કોમન પ્લેટફોર્મ હોવું જોઈએ જ્યાં એકેડેમિશિયન્સ, ગુજરાતી સાહિત્ય પરિષદ અને ગુજરાતી સાહિત્ય અકાદમી જેવી સંસ્થાઓ, ભાષાવિદો, કમ્પ્યુટર એન્જિનીયરો અને સરકારના પ્રતિનિધિઓ એકબીજા સાથે ઇન્ટરેક્ટ કરી શકે કે જેથી ગુજરાતી ભાષાને આધુનિક ટેકનોલોજી સાથે વણી લેવાનું કામ સડસડાટ આગળ વધે, બોટલનેક ન સર્જાય અને કામનું અકારણ ડુપ્લિકેશન ન થાય. મારૂં તો સૂચન છે કે સાહિત્ય પરિષદ અને અકાદમીએ સાહિત્યકારોની સાથે સાથે આ ક્ષેત્રમાં ઉત્તમ કામગીરી કરનાર એકેડેમિશિયન્સ અને એન્જિનીયરોને પણ અલાયદા અવોર્ડ્ઝ આપવાનું શરૂ કરવું જોઈએ કે જેથી તેમનો ઉત્સાહ વધે અને વધારે પ્રતિભાઓ આ દિશામાં આકર્ષાય.'
બિલકુલ. કેમ નહીં?
ગુજરાતી ભાષા બચાવવાની બૂમરાણ વર્ષોથી એકધારી થઈ રહી છે. બ્રિજેશ પંચાલ સમાપન કરે છે, 'ગુજરાતી પુસ્તકો છાપવા ને વાંચવા, ગુજરાતી નાટકો-ફિલ્મોને ઉત્તેજન આપવું, ગુજરાતીમાં જ બોલવાનો આગ્રહ રાખવો... આ બધાં સૂચનો હવે જૂનાં થઈ ગયાં. જો સાચી, શુદ્ધ ગુજરાતી ભાષાને આવનારી પેઢીઓ માટે રિલેવન્ટ રાખવી હશે તો ગુજરાતી ભાષાનું ટેકનોલોજીકરણ કર્યા વગર છૂટકો નથી.'
ગુજરાતીમાં સુંદર રીતે ઓપરેટ થતાં AI ટૂલ્સની કલ્પના ખરેખર મોહક છે. આ સ્તર સુધી પહોંચવાનું કામ અઘરૂં જરૂર છે પણ અશક્ય નથી, જો યોગ્ય લોકો દ્વારા, યોગ્ય દિશામાં યોગ્ય પ્રયત્નો થાય તો!
- શિશિર રામાવત