অ্যান্ড্রয়েড, ক্রোম প্ল্যাটফর্মে নতুন এআই অ্যাক্সেসিবিলিটি

গ্লোবাল অ্যাক্সেসিবিলিটি অ্যাওয়্যারনেস ডে (GAAD) উপলক্ষে, আমরা অ্যান্ড্রয়েড এবং ক্রোমের জন্য নতুন আপডেট এবং আমাদের ইকোসিস্টেমের জন্য নতুন রিসোর্স নিয়ে এসেছি। আর্টিফিশিয়াল ইন্টেলিজেন্সের অগ্রগতি আমাদের বিশ্বকে আরও বেশি অ্যাক্সেসিবল করে তুলছে। আজ, গ্লোবাল অ্যাক্সেসিবিলিটি অ্যাওয়্যারনেস ডে উপলক্ষ্যে, আমরা অ্যান্ড্রয়েড এবং ক্রোমের জন্য নতুন আপডেট নিয়ে এসেছি এবং ডেভেলপারদের জন্য স্পিচ রিকগনিশন টুল তৈরি করার জন্য নতুন রিসোর্স যোগ করছি।

এআই দ্বারা চালিত অ্যান্ড্রয়েডের উদ্ভাবন

আমরা আমাদের কাজকে আরও শক্তিশালী করছি এবং গুগল এআই (Google AI) এবং জেমিনির (Gemini) সেরা বৈশিষ্ট্যগুলোকে একত্রিত করে মোবাইলের অভিজ্ঞতাকে আরও উন্নত করছি।

জেমিনি (Gemini) এবং টকব্যাকের (TalkBack) মাধ্যমে বিস্তারিত তথ্য

গত বছর, আমরা অ্যান্ড্রয়েডের স্ক্রিন রিডার টকব্যাকে (TalkBack) জেমিনির (Gemini) ক্ষমতা যুক্ত করেছি। এর মাধ্যমে দৃষ্টি প্রতিবন্ধী মানুষজন কোনো অল্টারনেটিভ টেক্সট না থাকলেও এআই (AI) দ্বারা তৈরি ছবির বর্ণনা শুনতে পায়। আজ, আমরা এই জেমিনি (Gemini) ইন্টিগ্রেশনকে আরও প্রসারিত করছি, যাতে মানুষজন ছবি সম্পর্কে প্রশ্ন করতে এবং উত্তর পেতে পারে।

এর মানে হলো, এর পরে যখন কোনো বন্ধু তাদের নতুন গিটারের ছবি পাঠাবে, তখন আপনি সেই গিটারের বর্ণনা শুনতে পারবেন, ব্র্যান্ড এবং রঙ সম্পর্কে প্রশ্ন করতে পারবেন, এমনকি ছবিতে আর কী কী আছে, তাও জানতে পারবেন। এখন, মানুষজন তাদের পুরো স্ক্রিনের বর্ণনাও শুনতে পারবে এবং স্ক্রিন সম্পর্কে প্রশ্নও করতে পারবে। তাই, আপনি যদি আপনার পছন্দের শপিং অ্যাপে নতুন কোনো অফার দেখেন অথবা কোনো জিনিস কিনতে চান, তাহলে আপনি জেমিনিকে (Gemini) সেই জিনিসের উপাদান বা ডিসকাউন্ট সম্পর্কে জিজ্ঞাসা করতে পারেন।

আরও বিশেষভাবে বলতে গেলে, এই আপডেটের মাধ্যমে জেমিনির (Gemini) শক্তিশালী ক্ষমতা ব্যবহার করে ছবির বর্ণনাকে আগের চেয়ে অনেক উন্নত করা হয়েছে। এখন ব্যবহারকারীরা শুধুমাত্র স্ট্যাটিক বর্ণনার মধ্যে সীমাবদ্ধ থাকবে না; তারা ছবির সঙ্গে ইন্টারঅ্যাক্ট করতে পারবে, নির্দিষ্ট প্রশ্ন করতে পারবে এবং বিস্তারিত উত্তর জানতে পারবে। উদাহরণস্বরূপ, একজন ব্যবহারকারী একটি ঐতিহাসিক ল্যান্ডমার্কের ছবি আপলোড করে এর স্থাপত্য শৈলী, নির্মাণের বছর বা অন্য কোনো প্রাসঙ্গিক তথ্য সম্পর্কে জানতে চাইতে পারে। জেমিনির (Gemini) ইন্টেলিজেন্ট প্রসেসিং ক্ষমতা ইমেজটিকে বিশ্লেষণ করে, প্রাসঙ্গিক তথ্য বের করে এবং সহজে বোঝার মতো ফরম্যাটে একটি বিস্তারিত উত্তর প্রদান করে।

এছাড়াও, জেমিনির (Gemini) সঙ্গে টকব্যাকের (TalkBack) ইন্টিগ্রেশন শুধুমাত্র ছবি শনাক্তকরণের মধ্যেই সীমাবদ্ধ নয়। এটি স্ক্রিনের কনটেন্ট পর্যন্ত বিস্তৃত, যা ব্যবহারকারীদের তাদের ডিভাইসে প্রদর্শিত তথ্য সম্পর্কে প্রশ্ন করতে দেয়। আপনি যদি কোনো জটিল ওয়েবপেজ ব্রাউজ করতে বা অপরিচিত কোনো অ্যাপ্লিকেশন ব্যবহার করতে সমস্যায় পড়েন, তাহলে আপনি শুধু টকব্যাক (TalkBack) চালু করে জেমিনিকে (Gemini) ব্যাখ্যা বা নির্দেশনার জন্য জিজ্ঞাসা করতে পারেন। জেমিনি (Gemini) স্ক্রিনের কনটেন্ট বিশ্লেষণ করবে, গুরুত্বপূর্ণ উপাদানগুলো শনাক্ত করবে এবং স্পষ্ট ও সংক্ষিপ্তভাবে ব্যাখ্যা বা নির্দেশনা দেবে। এই ইন্টারেক্টিভ পদ্ধতি দৃষ্টি প্রতিবন্ধী ব্যবহারকারীদের ডিজিটাল জগৎকে আত্মবিশ্বাস ও স্বাধীনতার সঙ্গে খুঁজে নিতে সাহায্য করে।

ক্যাপশনের পেছনের আরও বেশি আবেগ বুঝুন

এক্সপ্রেসিভ ক্যাপশন (Expressive Captions)-এর মাধ্যমে আপনার ফোন এখন যেকোনো অডিওর রিয়েল-টাইম ক্যাপশন তৈরি করতে পারবে—এক্ষেত্রে এআই (AI) শুধু কারো কথাগুলোই ক্যাপচার করবে না, বরং তারা কিভাবে কথা বলছে, সেটাও ক্যাপচার করবে। আমরা জানি যে মানুষ তাদের কথা বলার ধরণ দিয়েও অনেক কিছু প্রকাশ করে, তাই আমরা এক্সপ্রেসিভ ক্যাপশনে (Expressive Captions) নতুন ডিউরেশন (duration) ফিচার যুক্ত করেছি। এর মাধ্যমে আপনি বুঝতে পারবেন যে একজন স্পোর্টস ব্রডকাস্টার কখন “amaaazing shot” বলছেন অথবা কেউ “no” না বলে “nooooo” বলছেন। আপনি আরও বেশি সাউন্ড লেবেলও পাবেন, যার মাধ্যমে আপনি বুঝতে পারবেন যে কেউ কখন বাঁশি বাজাচ্ছে বা গলা পরিষ্কার করছে। এই নতুন ভার্সনটি ইংরেজি ভাষায় আমেরিকা, যুক্তরাজ্য, কানাডা এবং অস্ট্রেলিয়ায় অ্যান্ড্রয়েড ১৫ (Android 15) ও তার উপরের ভার্সনে পাওয়া যাচ্ছে।

এক্সপ্রেসিভ ক্যাপশন (Expressive Captions) সূক্ষ্ম স্বরের পরিবর্তন, কথার গতি এবং সাউন্ড ক্লুগুলো ক্যাপচার করার মাধ্যমে ক্যাপশন দেখার অভিজ্ঞতাকে সম্পূর্ণরূপে বদলে দেয়। একটু ভেবে দেখুন: সাধারণ একটি “ওকে” শব্দ সম্মতি, উত্তেজনা অথবা বিদ্রূপ প্রকাশ করতে পারে। যেখানে ট্রেডিশনাল ক্যাপশনগুলো শুধুমাত্র শব্দ রেকর্ড করে, সেখানে এক্সপ্রেসিভ ক্যাপশন (Expressive Captions) লুকানো আবেগগুলোকে পাঠোদ্ধার করে এবং টেক্সট ক্লুগুলোর মাধ্যমে দর্শকদের কাছে পৌঁছে দেয়। উদাহরণস্বরূপ, একটি দীর্ঘশ্বাস হতাশা বা ক্লান্তির ইঙ্গিত দিতে পারে, আবার খিলখিল হাসি বিনোদন বা আনন্দের প্রকাশ হতে পারে। এই অ-মৌখিক ক্লুগুলো অন্তর্ভুক্ত করার মাধ্যমে, এক্সপ্রেসিভ ক্যাপশন (Expressive Captions) শ্রবণ প্রতিবন্ধী বা ভিজ্যুয়াল এইডের ওপর নির্ভর করতে পছন্দ করেন এমন মানুষদের দেখার অভিজ্ঞতায় গভীরতা এবং প্রেক্ষাপট যোগ করে।

এছাড়াও, এক্সপ্রেসিভ ক্যাপশনের (Expressive Captions) ডিউরেশন (duration) ফিচারটি আরও একটি নতুন মাত্রা যোগ করে। শব্দের প্রসারণ এবং দীর্ঘায়িত উচ্চারণকে সঠিকভাবে দেখানোর মাধ্যমে ক্যাপশন স্পিকারের আবেগের তীব্রতা এবং শব্দের গুরুত্ব প্রকাশ করে। একটি দীর্ঘ “না!” সংক্ষিপ্ত “না” এর চেয়ে বেশি আপত্তি প্রকাশ করে, যেখানে একটি দীর্ঘ “চমৎকার” উত্তেজনা এবং বিস্ময় জাগায়। এই মনোযোগ এবং বিস্তারিত তথ্য ক্যাপশনকে আরও আকর্ষণীয়, তথ্যপূর্ণ এবং আবেগঘন করে তোলে, যা দর্শক এবং তারা যে কনটেন্ট দেখছেন, তার মধ্যে একটি গভীর সম্পর্ক তৈরি করে।

আবেগ প্রকাশের উন্নতির পাশাপাশি, এক্সপ্রেসিভ ক্যাপশনে (Expressive Captions) বিভিন্ন সাউন্ড ক্লু, যেমন—বাঁশি, হাসি এবং করতালি শনাক্ত এবং ট্রান্সক্রাইব করার জন্য সাউন্ড লেবেলও অন্তর্ভুক্ত করা হয়েছে। এই লেবেলগুলো ক্যাপশনে প্রসঙ্গ যোগ করে এবং দর্শকদের অডিও পরিবেশ সম্পূর্ণরূপে বুঝতে সহায়তা করে, এমনকি যদি তাদের শোনার ক্ষমতা সীমিতও থাকে। গুরুত্বপূর্ণ সাউন্ড এলিমেন্টগুলো শনাক্ত করার মাধ্যমে, এক্সপ্রেসিভ ক্যাপশন (Expressive Captions) দর্শকদের তাদের দেখা কনটেন্টের সঙ্গে আরও ভালোভাবে যুক্ত হতে এবং বুঝতে সাহায্য করে, যা অডিও এবং ভিজ্যুয়াল তথ্যের মধ্যে একটি সেতুবন্ধন তৈরি করে।

বিশ্বজুড়ে ভয়েস রিকগনিশন উন্নত করা

২০১৯ সালে, আমরা ইউফোনিয়া (Euphonia) প্রজেক্ট শুরু করি, যাতে যাদের কথা বলার ধরণ স্বাভাবিক নয়, তাদের জন্য ভয়েস রিকগনিশনকে আরও সহজলভ্য করা যায়। এখন, আমরা বিশ্বজুড়ে ডেভেলপার এবং সংস্থাগুলোকে সহায়তা করছি, কারণ তারা এই কাজটিকে আরও অনেক ভাষা এবং সংস্কৃতিতে ছড়িয়ে দিচ্ছে।

নতুন ডেভেলপার রিসোর্স

গ্লোবাল টুলগুলোর ইকোসিস্টেমকে উন্নত করার জন্য, আমরা ইউফোনিয়া (Euphonia) প্রজেক্টের গিটহাব (GitHub) পেজের মাধ্যমে ডেভেলপারদের আমাদের ওপেন সোর্স রিপোজিটরি দিচ্ছি। তারা এখন গবেষণার জন্য ব্যক্তিগতকৃত অডিও টুল তৈরি করতে পারবে অথবা বিভিন্ন ধরণের ভয়েস প্যাটার্নের সঙ্গে মানানসই মডেল তৈরি করতে পারবে।

ওপেন সোর্স রিপোজিটরি প্রদানের মাধ্যমে, গুগল ডেভেলপার, গবেষক এবং সংস্থাগুলোকে ইউফোনিয়া (Euphonia) প্রজেক্টের ফলাফল ব্যবহার করতে এবং সেই কাজে অবদান রাখতে সহায়তা করে। এই সহযোগী পদ্ধতি ভয়েস রিকগনিশন প্রযুক্তির অগ্রগতিকে দ্রুত করে, যা নিশ্চিত করে যে এটির ব্যবহার বিভিন্ন ভাষা এবং সাংস্কৃতিক প্রেক্ষাপটে প্রসারিত হতে পারে। কোড, ডেটা সেট এবং মডেল শেয়ার করার মাধ্যমে, গুগল উদ্ভাবন এবং পরীক্ষার একটি সম্প্রদায় গড়ে তোলে, যা অ্যাক্সেসিবিলিটি প্রযুক্তির জন্য যুগান্তকারী সমাধান তৈরি করে।

এছাড়াও, ডেভেলপার রিসোর্সগুলোর সহজলভ্যতা ব্যক্তি বা সংস্থাকে তাদের নির্দিষ্ট চাহিদা মেটানোর জন্য ভয়েস রিকগনিশন টুল কাস্টমাইজ করতে সক্ষম করে। গবেষকরা বিভিন্ন ধরণের ভয়েস প্যাটার্ন নিয়ে গবেষণা করতে এবং বিভিন্ন ধরণের কথা বলার ধরণকে সঠিকভাবে ট্রান্সক্রাইব করতে পারে—এমন অ্যালগরিদম তৈরি করতে এই রিসোর্সগুলো ব্যবহার করতে পারেন। স্টার্টআপ বা ছোট ব্যবসাগুলো তাদের অ্যাপ্লিকেশন বা পরিষেবাগুলোতে এটি যুক্ত করতে, সেগুলোকে আরও অন্তর্ভুক্তিমূলক এবং অ্যাক্সেসিবল করে তুলতে পারে। ভয়েস রিকগনিশন প্রযুক্তির ব্যবহার সহজ করার মাধ্যমে, গুগল উদ্ভাবনকে সম্ভব করে তুলেছে এবং ডেভেলপারদের এমন অর্থবহ সমাধান তৈরি করতে সক্ষম করছে, যা কথা বলতে সমস্যা হয়—এমন মানুষদের জন্য যোগাযোগ এবং ইন্টারঅ্যাকশনকে সহজ করে।

আফ্রিকাতে নতুন প্রজেক্টের সহায়তা

এ বছর আমরা ইউনিভার্সিটি কলেজ লন্ডনের (University College London) ডিজিটাল ল্যাঙ্গুয়েজ ইনক্লুশন সেন্টার (CDLI) তৈরির জন্য গুগল ডট অর্গের (Google.org) সঙ্গে পার্টনারশিপ করেছি। সিডিএলআই (CDLI) ১০টি আফ্রিকান ভাষার ওপেন সোর্স ডেটা সেট তৈরি করে, নতুন স্পিচ রিকগনিশন মডেল তৈরি করে এবং এই ক্ষেত্রে সংস্থা ও ডেভেলপারদের সহায়তা করে—আফ্রিকার ইংরেজি ভাষাভাষী নয়—এমন মানুষদের জন্য স্পিচ রিকগনিশন প্রযুক্তি উন্নত করতে কাজ করছে।

গুগল ডট অর্গ (Google.org) কর্তৃক ডিজিটাল ল্যাঙ্গুয়েজ ইনক্লুশন সেন্টারকে (CDLI) সহায়তা করার বিষয়টি আফ্রিকার ভাষার প্রযুক্তিগত ব্যবধান পূরণে কোম্পানির অঙ্গীকারের একটি প্রমাণ। সিডিএলআইকে (CDLI) তহবিল এবং রিসোর্স প্রদানের মাধ্যমে, গুগল আফ্রিকান মহাদেশে আরও নির্ভুল এবং অন্তর্ভুক্তিমূলক স্পিচ রিকগনিশন মডেল তৈরি করতে সহায়তা করছে। সিডিএলআই (CDLI) আফ্রিকার ভাষাগুলোর বিশাল আকারের ওপেন ডেটা সেট তৈরি করার ওপর জোর দিচ্ছে, যা শক্তিশালী স্পিচ রিকগনিশন সিস্টেম প্রশিক্ষণের জন্য একটি গুরুত্বপূর্ণ পদক্ষেপ। আফ্রিকার ভাষাগুলোর ভয়েস স্যাম্পল সংগ্রহ এবং টীকা করার মাধ্যমে, ডিজিটাল ল্যাঙ্গুয়েজ ইনক্লুশন সেন্টার (CDLI) স্পিচ রিকগনিশন প্রযুক্তির ভবিষ্যতের ভিত্তি স্থাপন করছে, যা তাদের ভাষা বা উচ্চারণ নির্বিশেষে আফ্রিকার জনগণের কণ্ঠকে সঠিকভাবে অনুবাদ করতে পারবে।

ডেটা সেট তৈরি করার পাশাপাশি, ডিজিটাল ল্যাঙ্গুয়েজ ইনক্লুশন সেন্টার (CDLI) নতুন স্পিচ রিকগনিশন মডেল তৈরি করতেও কাজ করছে, যা বিশেষভাবে আফ্রিকান ভাষাগুলোর অনন্য ভাষাগত বৈশিষ্ট্যগুলোর জন্য ডিজাইন করা হয়েছে। এই মডেলগুলো আফ্রিকান ভাষাগুলোর সুর, ভয়েস প্যাটার্ন এবং শব্দভাণ্ডার বিবেচনা করে, যা প্রায়শই ইংরেজি এবং অন্যান্য ব্যাপকভাবে অধ্যয়ন করা ভাষাগুলো থেকে আলাদা হয়। আফ্রিকান ভাষাগুলোর জটিলতার সঙ্গে মানানসই স্পিচ রিকগনিশন মডেল কাস্টমাইজ করার মাধ্যমে, সিডিএলআই (CDLI) স্পিচ রিকগনিশন প্রযুক্তির নির্ভুলতা এবং নির্ভরযোগ্যতা বাড়াচ্ছে, যাতে আফ্রিকার মানুষ এটি ব্যবহার করতে পারে।

সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, ডিজিটাল ল্যাঙ্গুয়েজ ইনক্লুশন সেন্টার (CDLI) আফ্রিকার মহাদেশের সংস্থা এবং ডেভেলপারদের ইকোসিস্টেমকে সহায়তা করার ওপর জোর দিচ্ছে। প্রশিক্ষণ প্রোগ্রাম, মেন্টরশিপের সুযোগ এবং আর্থিক সহায়তা প্রদানের মাধ্যমে, এটি দক্ষ বিশেষজ্ঞদের একটি সম্প্রদায় গড়ে তুলতে সহায়তা করছে। আফ্রিকান ভাষার প্রযুক্তির অগ্রগতিকে উৎসাহিত করার মাধ্যমে, সিডিএলআই (CDLI) আফ্রিকার জনগণের জন্য অর্থনৈতিক সুযোগ তৈরি করছে এবং একটি শক্তিশালী, অন্তর্ভুক্তিমূলক ডিজিটাল ভবিষ্যৎ গড়ে তুলছে।

শিক্ষার্থীদের জন্য অ্যাক্সেসিবিলিটি অপশন বাড়ানো

অ্যাক্সেসিবিলিটি টুলগুলো বিশেষভাবে প্রতিবন্ধী শিক্ষার্থীদের জন্য খুবই দরকারি। এর মাধ্যমে তারা ফেসিয়াল জেশ্চার ব্যবহার করে তাদের Chromebook নেভিগেট করতে পারে, অথবা রিডিং মোড ব্যবহার করে তাদের পড়ার অভিজ্ঞতা কাস্টমাইজ করতে পারে।

এখন, আপনি যখন আপনার Chromebook-এ কলেজ বোর্ডের ব্লু-বুক টেস্টিং অ্যাপ্লিকেশন (Bluebook Testing Application) ব্যবহার করবেন—যেখানে শিক্ষার্থীরা SAT এবং বেশিরভাগ অ্যাডভান্সড প্লেসমেন্ট (Advanced Placement) পরীক্ষায় অংশগ্রহণ করে, তখন আপনি Google-এর সমস্ত বিল্ট-ইন অ্যাক্সেসিবিলিটি বৈশিষ্ট্যগুলো ব্যবহার করতে পারবেন। এর মধ্যে ChromeVox স্ক্রিন রিডার এবং ডিক্টেশন (Dictation)-এর পাশাপাশি কলেজ বোর্ডের নিজস্ব ডিজিটাল টেস্টিং টুলও রয়েছে।

এখানে কিছু উদাহরণ দেওয়া হলো, কিভাবে অ্যাক্সেসিবিলিটি বিভিন্ন প্রতিবন্ধী শিক্ষার্থীদের শেখার অভিজ্ঞতাকে সম্পূর্ণরূপে পরিবর্তন করে:

  • দৃষ্টি প্রতিবন্ধী শিক্ষার্থীরা ChromeVox স্ক্রিন রিডার ব্যবহার করতে পারে। এটি স্ক্রিনের টেক্সট জোরে পড়ে শোনাতে পারে, যার ফলে শিক্ষার্থীরা দেখতে না পারলেও লিখিত কনটেন্ট অ্যাক্সেস করতে পারে। ChromeVox ছবি, বাটন এবং লিঙ্ক সম্পর্কেও বর্ণনা দিতে পারে, যা শিক্ষার্থীদের জন্য ওয়েব এবং অ্যাপ্লিকেশনগুলো সহজে নেভিগেট করতে সহায়তা করে।
  • শারীরিক প্রতিবন্ধী শিক্ষার্থীরা ফেসিয়াল কন্ট্রোল (Facial control) ফিচারটি ব্যবহার করতে পারে। এটি তাদের মুখের অভিব্যক্তি (যেমন—হাসি বা ভ্রু উপরে তোলা) ব্যবহার করে Chromebook নেভিগেট করতে দেয়। এই কন্ট্রোল পদ্ধতিটি কীবোর্ড বা মাউস ব্যবহার করতে অক্ষম শিক্ষার্থীদের জন্য খুবই উপযোগী।
  • শিখন অক্ষমতা (Learning disabilities) আছে—এমন শিক্ষার্থীরা তাদের পড়ার অভিজ্ঞতা কাস্টমাইজ করার জন্য রিডিং মোড ব্যবহার করতে পারে। রিডিং মোডের মাধ্যমে শিক্ষার্থীরা ফন্টের আকার, রঙ এবং স্পেসিং পরিবর্তন করতে পারে, যা তাদের টেক্সট পড়া সহজ করে তোলে। এছাড়াও এটি ছবি এবং বিজ্ঞাপনের মতো মনোযোগ বিক্ষিপ্তকারী বিষয়গুলো সরিয়ে দেয়, যা শিক্ষার্থীদের কনটেন্টের ওপর মনোযোগ দিতে সাহায্য করে।

সব মিলিয়ে, Google-এর অ্যাক্সেসিবিলিটি টুল প্রতিবন্ধী শিক্ষার্থীদের জন্য সম্ভাবনার একটি নতুন জগৎ খুলে দিয়েছে। কাস্টমাইজড অ্যাক্সেস এবং সহায়তা প্রদানের মাধ্যমে, এই টুলগুলো শিক্ষার্থীদের বাধাগুলো অতিক্রম করতে, তাদের সম্ভাবনাকে কাজে লাগাতে এবং শিক্ষাক্ষেত্রে সফলতা অর্জন করতে সক্ষম করে।

ক্রোমকে আরও অ্যাক্সেসিবল করা

প্রতিদিন ২ বিলিয়নেরও বেশি মানুষ ক্রোম ব্যবহার করে, তাই আমরা আমাদের ব্রাউজারকে আরও সহজলভ্য করে তুলতে সবসময় প্রতিশ্রুতিবদ্ধ। রিয়েল-টাইম ক্যাপশন এবং স্ক্রিন রিডার ব্যবহারকারীদের জন্য ছবির বর্ণনার মতো বৈশিষ্ট্যগুলোর মাধ্যমে ক্রোমকে সবার জন্য ব্যবহারযোগ্য করে তোলার চেষ্টা করছি।

ক্রোমে (Chrome) পিডিএফ (PDF) অ্যাক্সেস করা আরও সহজ

আগে, আপনি যদি ডেস্কটপ ক্রোম ব্রাউজারে স্ক্যান করা কোনো পিডিএফ (PDF) খুলতেন, তাহলে আপনি স্ক্রিন রিডার ব্যবহার করে সেটির সঙ্গে ইন্টারঅ্যাক্ট করতে পারতেন না। কিন্তু এখন অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর মাধ্যমে, ক্রোম স্বয়ংক্রিয়ভাবে এই ধরনের পিডিএফ (PDF) শনাক্ত করতে পারবে, তাই আপনি অন্যান্য পেজের মতো টেক্সট হাইলাইট, কপি এবং সার্চ করতে পারবেন, এবং স্ক্রিন রিডার ব্যবহার করে সেগুলো পড়তে পারবেন।

অপটিক্যাল ক্যারেক্টার রিকগনিশন (optical character recognition (OCR)) প্রযুক্তির ইন্টিগ্রেশন দৃষ্টি প্রতিবন্ধী অথবা স্ক্রিন রিডার ব্যবহার করে কনটেন্ট অ্যাক্সেস করতে পছন্দ করেন—এমন মানুষদের জন্য পিডিএফ (PDF) ফাইল ব্যবহার করার পদ্ধতিতে বিপ্লব এনেছে। আগে স্ক্যান করা পিডিএফ (PDF) ফাইলগুলো স্ক্রিন রিডারদের জন্য অ্যাক্সেস করা সম্ভব ছিল না, কারণ সেগুলো মেশিন-রিডেবল টেক্সট না হয়ে ইমেজ হিসেবে বিবেচিত হতো। এর মানে হলো, দৃষ্টি প্রতিবন্ধী ব্যক্তিরা স্ক্যান করা পিডিএফ (PDF) ফাইলের কনটেন্ট পড়তে, সার্চ করতে বা সেগুলোর সঙ্গে ইন্টারঅ্যাক্ট করতে পারতেন না।

ও সি আর (OCR) প্রযুক্তির মাধ্যমে, ক্রোম এখন স্বয়ংক্রিয়ভাবে স্ক্যান করা পিডিএফ (PDF) বিশ্লেষণ করতে, ফাইলের টেক্সট শনাক্ত করতে এবং সেগুলোকে মেশিন-রিডেবল ফরম্যাটে রূপান্তর করতে পারে। এই প্রক্রিয়ার মাধ্যমে স্ক্রিন রিডার পিডিএফ (PDF) এর টেক্সট পড়তে পারে, যা দৃষ্টি প্রতিবন্ধী মানুষদের জন্য অন্যান্য ডিজিটাল ডকুমেন্টের মতোই এই ফাইলগুলো অ্যাক্সেস এবং ব্যবহার করা সহজ করে তোলে।

ও সি আর (OCR) ইন্টিগ্রেশনের অনেক সুবিধা রয়েছে:

  • বর্ধিত অ্যাক্সেসিবিলিটি: ও সি আর (OCR) স্ক্যান করা পিডিএফ (PDF) ফাইলগুলোকে স্ক্রিন রিডার ব্যবহারকারীদের জন্য অ্যাক্সেসিবল করে তোলে, যা আগে সম্ভব ছিল না। এটি তাদের জন্য সম্ভাবনার একটি নতুন জগৎ খুলে দেয়, যারা স্ক্যান করা ডকুমেন্টগুলো স্বাধীনভাবে অ্যাক্সেস করতে অক্ষম।
  • উন্নত ইউজার অভিজ্ঞতা: ও সি আর (OCR) ব্যবহারকারীদের স্ক্যান করা পিডিএফ (PDF) ফাইলের সঙ্গে অন্যান্য ডিজিটাল ডকুমেন্টের মতোই ইন্টারঅ্যাক্ট করতে দেয়। তারা টেক্সট হাইলাইট, অংশ কপি এবং নির্দিষ্ট শব্দ বা ফ্রেজ সার্চ করতে পারে, যা তাদের পড়া এবং গবেষণার অভিজ্ঞতাকে উন্নত করে।
  • উচ্চ দক্ষতা: ও সি আর (OCR) স্ক্যান করা পিডিএফ (PDF) ফাইলের টেক্সট ম্যানুয়ালি ট্রান্সক্রাইব করার প্রয়োজনীয়তা দূর করে। এটি সময় এবং শ্রম সাশ্রয় করে, ব্যবহারকারীদের তথ্যে অ্যাক্সেস করার জন্য সংগ্রাম না করে তাদের কাজের ওপর মনোযোগ দিতে সক্ষম করে।

মোটকথা, ক্রোমে (Chrome) ও সি আর (OCR) প্রযুক্তির ইন্টিগ্রেশন একটি গুরুত্বপূর্ণ অগ্রগতি, যা দৃষ্টি প্রতিবন্ধী মানুষদের জন্য পিডিএফ (PDF) ফাইল অ্যাক্সেস করা সহজ করে তোলে। যে ডকুমেন্টগুলো আগে অ্যাক্সেস করা যেত না, সেগুলোকে এখন সার্চ করা, পড়া এবং ইন্টারঅ্যাক্ট করা যায়। এর মাধ্যমে ক্রোম (Chrome) পড়া এবং শেখার ক্ষেত্রে চ্যালেঞ্জের সম্মুখীন হওয়া ব্যক্তিদের মধ্যে ডিজিটাল বিভাজন কমাতে সহায়তা করছে।

পেইজ জুম (Page Zoom) ব্যবহার করে সহজে পড়ুন

পেইজ জুমের (Page Zoom) মাধ্যমে আপনি এখন অ্যান্ড্রয়েডের ক্রোমে (Chrome) ওয়েবপেজের লেআউট বা ব্রাউজিং অভিজ্ঞতার পরিবর্তন না করেই টেক্সটের আকার বাড়াতে পারবেন—ঠিক যেমন এটি ক্রোম ডেস্কটপে কাজ করে। আপনি কতটুকু জুম (Zoom) করতে চান, তা কাস্টমাইজ করতে পারেন এবং আপনার ভিজিট করা সমস্ত পেজের জন্য বা নির্দিষ্ট পেজের জন্য সহজেই সেটিংস পরিবর্তন করতে পারেন।

পেইজ জুম (Page Zoom) ফিচারটি তাদের জন্য খুবই দরকারি, যাদের দৃষ্টিশক্তি দুর্বল অথবা যারা সহজে পড়ার জন্য বড় টেক্সট পছন্দ করেন। ওয়েবপেজের লেআউট পরিবর্তন না করে টেক্সটের আকার পরিবর্তন করার সুবিধা দেওয়ার মাধ্যমে, ক্রোম (Chrome) নিশ্চিত করে যে টেক্সটটি দেখতে আরও আরামদায়ক এবং পড়া সহজ হবে। এক্ষেত্রে টেক্সট ওভারল্যাপ বা ফরম্যাটিং নষ্ট হওয়ার ঝুঁকি থাকে না।

পেইজ জুম (Page Zoom) ফিচারের কিছু সুবিধা নিচে দেওয়া হলো:

  • উন্নত পঠনযোগ্যতা: পেইজ জুম (Page Zoom) ব্যবহারকারীদের তাদের দেখা টেক্সটের আকার পরিবর্তন করতে দেয়, যা পড়া সহজ এবং আনন্দদায়ক করে তোলে। এটি বিশেষভাবে দুর্বল দৃষ্টিশক্তি, ডিসলেক্সিয়া (dyslexia) বা অন্যান্য দৃষ্টি প্রতিবন্ধকতা রয়েছে—এমন মানুষদের জন্য খুবই দরকারি।
  • উন্নত আরাম: পেইজ জুম (Page Zoom) ব্যবহারকারীদের তাদের ব্যক্তিগত পছন্দ এবং চাক্ষুষ চাহিদা অনুযায়ী টেক্সটের আকার কাস্টমাইজ করতে দেয়। এটি চোখের ক্লান্তি কমাতে সাহায্য করে এবং দীর্ঘক্ষণ ধরে কনটেন্ট পড়া আরও আরামদায়ক করে তোলে।
  • লেআউট সংরক্ষণ: পুরো ওয়েবপেজ জুম না করে, পেইজ জুম (Page Zoom) শুধুমাত্র ব্যবহারকারীদের টেক্সটের আকার ছোট বা বড় করার সুবিধা দেয়। এর মাধ্যমে অরিজিনাল লেআউটের অখণ্ডতা বজায় থাকে। এটি নিশ্চিত করে যে ওয়েবপেজটি নেভিগেট করা সহজ এবং সমস্ত এলিমেন্ট প্রত্যাশা অনুযায়ী স্থাপন করা আছে।
  • নমনীয় কাস্টমাইজেশন: পেইজ জুম (Page Zoom) কাস্টমাইজেশনের বিস্তৃত অপশন প্রদান করে, যা ব্যবহারকারীদের তাদের নির্দিষ্ট চাহিদা অনুযায়ী টেক্সটের আকার পরিবর্তন করতে দেয়। ব্যবহারকারীরা পূর্বনির্ধারিত জুম (Zoom) লেভেল নির্বাচন করতে বা কাস্টম মান ইনপুট করতে এবং তাদের পছন্দগুলো সমস্ত ওয়েবপেজ বা শুধুমাত্র নির্দিষ্ট ওয়েবসাইটের জন্য সেট করতে পারেন।

এই ফিচারটি ব্যবহার শুরু করতে, Chrome-এর উপরের ডান দিকের কোণায় থাকা তিনটি ডট মেনুতে ক্লিক করুন, তারপর আপনার জুম (Zoom) সেটিংস সেট করুন।