«Яндекс» вазифаи хондани матнҳоро аз тасвир оғоз намуд

0
2 273 просмотров

Ширкати «Яндекс» дар бораи баромадани хизматрасоние, ки ба истифодабарандагони «Яндекс.Диск»  имконияти эътироф намудани матнро дар тасвир медиҳад, хабар додааст. Бо кӯмаки ин функсия, метавон ба осонӣ тасвирҳои заруриро дар форматҳои JPEG, GIF ва PNG, ки дорои матни дархостӣ аст, пайдо намуд.

«Ҳангоме ки дар фита ҳазорҳо суратҳо дар ҷузвдонҳои гуногун гузошта шудаанд, ҷустуҷӯи матнӣ имкон медиҳад, ки ба зудӣ аз байни онҳо дилхоҳеро ҷустуҷӯ кунем. Масалан, скани шартнома бо унвони мисли scan723.JPG  ё акси кортҳои тиҷорӣ, ки бо он мебоист дар тамос буд.  Метавон на танҳо ҳуҷҷатҳоро, балки тамоми тасвирҳоеро, ки барои нигоҳ доштани матн пешбинӣ шудаанд, ҷустуҷӯ намуд, ки гӯё он даромадгоҳи хона ё лавҳаи ҷолиб дар метро бошад», — гуфта мешавад дар нашри мазкур.

Тавре гуфта мешавад, дар асоси матни ҷустуҷӯӣ дар тасвирҳо, технологияи шинохтани оптикии рамзҳо ҷойгир карда шудааст, ки метавонад дар матнҳои шаклашон гуногун, мазмун ва сифати расмҳоро эътироф кунад.

Системаи мазкур таснифоти тасвирҳо ва модули эътирофкунандаро дар бар мегирад. Дар аввал таснифот тамоми тасвирҳоро, ки дар он матн зоҳир мегардад, интихоб мекунад. Вақте тасвир бо матн интихоб карда мешавад, алгоритм дар онҳо хатҳоеро, ки дорои матн мебошанд пайдо мекунад. Он гоҳ танҳо он сатрҳои матнӣ интихоб карда мешаванд, ки онҳоро алгоритм тасдиқ намудааст.

Дар марҳилаи навбатӣ, модули эътирофӣ сатрҳои матнро дар рамзҳои алоҳида мешиканад. Барои ҳар як рамз баъзе аз вариантҳои   аз ҳама бештари эътирофӣ интихоб мешавад. Баъд аз ин, модели забонӣ ҷорӣ карда мешавад. Дар он алгоритм қарор қабул мекунад, ки кадом рамзҳои номзадҳо бештар мувофиқ аст.

Модели забонӣ ба луғатҳо такя мекунад ва монандии рамзҳоеро, ки он на танҳо ба система, балки матн низ шинос аст, ба инобат мегирад.

Дар ин гузориш таъкид карда мешавад, ки дурустии эътирофи матн аз намуди тасвир, мунтазамии он, заминае, ки дар он матн ҷойгир аст ва омилҳои зиёди дигар вобаста аст. Масалан, барои ҳуҷҷатҳои нусхабардоришуда, дурустии эътирофи матнҳо бо забони русӣ тақрибан 80%-ро ташкил медиҳад, расмҳо бо навиштаҷот ба 63.2% ва скриншотҳо ба 100% баробар аст.

Ба ғайр аз забони русӣ, система ҳамчунин забонҳои англисӣ, украинӣ ва туркиро низ мешиносад. Ҷараёни шинохтани матни тамоми тасвирҳо зиёда аз 70%-ро ташкил медиҳад ва ширкат барои беҳтар намудани ин нишондод кӯшиш ба харҷ медиҳад.

Сарчашма: http://hitech.newsru.com/article/25mar2015/yandex

Нет комментариев

Также рекомендуем

Ҷаласаи гурӯҳи кории байниидоравӣ оиди тариқи таҷрибавӣ таҳия ва ҷорӣ намудани буҷети шаҳрак ва деҳот

Дар маҷлисгоҳи осоишгоҳи «Баҳористон» ҷаласаи гуруҳи кории байниидоравӣ оид ба тариқи таҷрибавӣ таҳия ва ҷорӣ намудани буҷети шаҳрак ва деҳот баргузор шуд. Дар кори ҷаласа ...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: