თუ ოდესმე ტელეფონი სახის გამოყენებით განგიბლოკავთ, ქვითარს დაასკანირებთ ან თვითმომსახურების კამერას უყურებთ და ფიქრობთ, ხომ არ აფასებს ის თქვენს ავოკადოს, ესე იგი, კომპიუტერულ ხედვას წააწყდით. მარტივად რომ ვთქვათ, ხელოვნურ ინტელექტში კომპიუტერული ხედვა არის ის, თუ როგორ სწავლობენ მანქანები დანახვას და გაგებას გადაწყვეტილების მისაღებად. სასარგებლოა? აბსოლუტურად. ზოგჯერ გასაკვირია? ასევე, დიახ. და ზოგჯერ ცოტა საშიშიც, თუ გულახდილები ვიქნებით. საუკეთესო შემთხვევაში, ის არეულ პიქსელებს პრაქტიკულ ქმედებებად აქცევს. უარეს შემთხვევაში კი, ის ვარაუდობს და ირყევა. მოდით, კარგად ჩავუღრმავდეთ.
სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:
🔗 რა არის ხელოვნური ინტელექტის მიკერძოება?
როგორ ყალიბდება მიკერძოება ხელოვნური ინტელექტის სისტემებში და მისი აღმოჩენისა და შემცირების გზები.
🔗 რა არის პროგნოზირებადი ხელოვნური ინტელექტი?
როგორ იყენებს პროგნოზირებადი ხელოვნური ინტელექტი მონაცემებს ტენდენციებისა და შედეგების პროგნოზირებისთვის.
🔗 ვინ არის ხელოვნური ინტელექტის ტრენერი?
მოვალეობები, უნარები და ინსტრუმენტები, რომლებსაც იყენებენ ხელოვნური ინტელექტის ტრენერები.
🔗 რა არის Google Vertex AI?
Google-ის ერთიანი AI პლატფორმის მიმოხილვა მოდელების შესაქმნელად და განსათავსებლად.
რა არის ზუსტად კომპიუტერული ხედვა ხელოვნურ ინტელექტში? 📸
ხელოვნურ ინტელექტში კომპიუტერული ხედვა ხელოვნური ინტელექტის დარგია, რომელიც კომპიუტერებს ასწავლის ვიზუალური მონაცემების ინტერპრეტაციას და მათზე მსჯელობას. ეს არის ნედლი პიქსელებიდან სტრუქტურირებულ მნიშვნელობამდე გადასვლის პროცესი: „ეს არის გაჩერების ნიშანი“, „ესენი არიან ფეხით მოსიარულეები“, „შედუღება დეფექტურია“, „ანგარიშ-ფაქტურის ჯამური ღირებულება აქ არის“. ის მოიცავს ისეთ ამოცანებს, როგორიცაა კლასიფიკაცია, აღმოჩენა, სეგმენტაცია, თვალყურის დევნება, სიღრმის შეფასება, OCR და სხვა - ერთმანეთთან შერწყმული ნიმუშების სწავლების მოდელებით. ფორმალური სფერო მოიცავს კლასიკურ გეომეტრიას თანამედროვე ღრმა სწავლებამდე, პრაქტიკული სახელმძღვანელოებით, რომელთა კოპირება და შეცვლაც შეგიძლიათ. [1]
მოკლე ანეკდოტი: წარმოიდგინეთ შესაფუთი ხაზი მოკრძალებული 720p კამერით. მსუბუქი დეტექტორი აფიქსირებს თავსახურებს და მარტივი ტრეკერი ადასტურებს, რომ ისინი გასწორებულია ზედიზედ ხუთი კადრის განმავლობაში, სანამ ბოთლს მწვანე შუქს მისცემს. ეს არ არის ძვირადღირებული, მაგრამ იაფია, სწრაფი და ამცირებს გადამუშავებას.
რა ხდის კომპიუტერულ ხედვას ხელოვნურ ინტელექტში სასარგებლოს? ✅
-
სიგნალიდან მოქმედებამდე გარდამავალი ნაკადი : ვიზუალური შეყვანა მოქმედებად გამოსავალად იქცევა. ნაკლები დაფა, მეტი გადაწყვეტილება.
-
განზოგადება : სწორი მონაცემებით, ერთი მოდელი ამუშავებს სურათების ფართო სპექტრს. არა იდეალურად - ზოგჯერ კი შოკისმომგვრელად კარგად.
-
მონაცემთა ბერკეტი : კამერები იაფია და ყველგანაა. ხედვა პიქსელების ოკეანეს ხედვად გარდაქმნის.
-
სიჩქარე : მოდელებს შეუძლიათ ფრეიმების დამუშავება რეალურ დროში, მცირე ზომის აპარატურაზე ან თითქმის რეალურ დროში, დავალების და გარჩევადობის მიხედვით.
-
კომპოზიციურობა : მარტივი ნაბიჯების ჯაჭვურად გაერთიანება საიმედო სისტემებში: აღმოჩენა → თვალყურის დევნება → ხარისხის კონტროლი.
-
ეკოსისტემა : ინსტრუმენტები, წინასწარ მომზადებული მოდელები, საორიენტაციო მაჩვენებლები და საზოგადოების მხარდაჭერა - კოდის ერთი ვრცელი ბაზარი.
მოდით, ვიყოთ გულახდილები, საიდუმლო რეცეპტი საიდუმლოდ არ რჩება: კარგი მონაცემები, დისციპლინირებული შეფასება, ფრთხილად გამოყენება. დანარჩენი პრაქტიკაა... და შესაძლოა ყავაც. ☕
როგორ კომპიუტერული ხედვა ხელოვნურ ინტელექტში , ერთ გონივრულ მილსადენში 🧪
-
გამოსახულების მიღება
კამერები, სკანერები, დრონები, ტელეფონები. ყურადღებით შეარჩიეთ სენსორის ტიპი, ექსპოზიცია, ლინზა და კადრების სიხშირე. ნაგვის შეგროვება და ა.შ. -
წინასწარი დამუშავება
საჭიროების შემთხვევაში ზომის შეცვლა, ჩამოჭრა, ნორმალიზაცია, ბუნდოვანების მოხსნა ან ხმაურის შემცირება. ზოგჯერ კონტრასტის მცირედი ცვლილება მთებსაც კი აზიანებს. [4] -
ეტიკეტები და მონაცემთა ნაკრებები.
შემოსაზღვრული უჯრები, პოლიგონები, საკვანძო წერტილები, ტექსტის ინტერვალები. დაბალანსებული, წარმომადგენლობითი ეტიკეტები - ან თქვენი მოდელი სწავლობს ცალმხრივ ჩვევებს. -
მოდელირება
-
კლასიფიკაცია : „რომელი კატეგორია?“
-
აღმოჩენა : „სად არიან ობიექტები?“
-
სეგმენტაცია : „რომელი პიქსელები რომელ ნივთს ეკუთვნის?“
-
ძირითადი პუნქტები და პოზა : „სად არის შესაერთებელი ადგილები ან ღირსშესანიშნაობები?“
-
OCR : „რა ტექსტია სურათზე?“
-
სიღრმე და 3D : „რამდენად შორს არის ყველაფერი?“
არქიტექტურები განსხვავდება, მაგრამ კონვოლუციური ქსელები და ტრანსფორმატორის სტილის მოდელები დომინირებს. [1]
-
-
გაყოფა
, ჰიპერპარამეტრების რეგულირება, რეგულარიზაცია, გაზრდა. ფონის დამახსოვრებამდე ადრეული შეჩერება. -
შეფასება
OCR-ისთვის გამოიყენეთ დავალების შესაბამისი მეტრიკები, როგორიცაა mAP, IoU, F1, CER/WER. ნუ აირჩევთ ზედმეტად. შეადარეთ სამართლიანად. [3] -
განლაგება
- ოპტიმიზაცია სამიზნეზე: ღრუბლოვანი პაკეტური დავალებები, მოწყობილობაზე დასკვნები, კიდის სერვერები. მონიტორინგის დრიფტი. გადამზადება, როდესაც სამყარო იცვლება.
ღრმა ქსელებმა ხარისხობრივი ნახტომი გამოიწვია, როგორც კი დიდი მონაცემთა ნაკრებები და გამოთვლები კრიტიკულ მასას მიაღწევდა. ImageNet-ის მსგავსი საორიენტაციო მაჩვენებლები ამ პროგრესს თვალსაჩინოსა და დაუნდობელს ხდიდა. [2]
ძირითადი დავალებები, რომლებსაც რეალურად გამოიყენებთ (და როდის) 🧩
-
სურათის კლასიფიკაცია : ერთი ეტიკეტი თითო სურათზე. გამოიყენეთ სწრაფი ფილტრებისთვის, დახარისხებისთვის ან ხარისხის ფილტრებისთვის.
-
ობიექტების აღმოჩენა : ნივთების გარშემო ჩარჩოები. საცალო ვაჭრობის დანაკარგების პრევენცია, სატრანსპორტო საშუალებების აღმოჩენა, ველური ბუნების დათვლა.
-
ეგზემპლარის სეგმენტაცია : პიქსელურად ზუსტი სილუეტები ობიექტზე. წარმოების დეფექტები, ქირურგიული ხელსაწყოები, აგროტექნოლოგია.
-
სემანტიკური სეგმენტაცია : კლასი პიქსელზე ეგზემპლარების გამოყოფის გარეშე. ურბანული გზის სცენები, მიწის საფარი.
-
საკვანძო წერტილების ამოცნობა და პოზა : სახსრები, ღირსშესანიშნაობები, სახის ნაკვთები. სპორტული ანალიტიკა, ერგონომიკა, AR.
-
თვალყურის დევნება : ობიექტების დროთა განმავლობაში თვალყურის დევნება. ლოჯისტიკა, მოძრაობა, უსაფრთხოება.
-
OCR და დოკუმენტების ხელოვნური ინტელექტი : ტექსტის ამოღება და განლაგების დამუშავება. ინვოისები, ქვითრები, ფორმები.
-
სიღრმე და 3D : რეკონსტრუქცია მრავალი ხედიდან ან მონოკულარული სიგნალებიდან. რობოტიკა, AR, რუკების შექმნა.
-
ვიზუალური წარწერები : სცენების შეჯამება ბუნებრივ ენაზე. ხელმისაწვდომობა, ძიება.
-
ხედვა-ენის მოდელები : მულტიმოდალური მსჯელობა, აღდგენის გზით გაფართოებული ხედვა, დასაბუთებული ხარისხის უზრუნველყოფა.
პაწაწინა კორპუსის ვიბრაცია: მაღაზიებში დეტექტორი აფიქსირებს თაროების ზედაპირის ნაკლებობას; ტრეკერი ხელს უშლის ორმაგ დათვლას პერსონალის მარაგის შევსებისას; მარტივი წესი დაბალი სანდოობის მქონე ჩარჩოებს ადამიანის მიერ განხილვაზე გადამისამართებს. ეს არის პატარა ორკესტრი, რომელიც ძირითადად ჰარმონიაში რჩება.
შედარების ცხრილი: ხელსაწყოები უფრო სწრაფად გადაზიდვისთვის 🧰
განზრახ ოდნავ უცნაურია. დიახ, ინტერვალი უცნაურია - ვიცი.
| ინსტრუმენტი / ჩარჩო | საუკეთესოა | ლიცენზია/ფასი | რატომ მუშაობს პრაქტიკაში |
|---|---|---|---|
| OpenCV | წინასწარი დამუშავება, კლასიკური CV, სწრაფი POC-ები | უფასო - ღია კოდი | უზარმაზარი ინსტრუმენტების ნაკრები, სტაბილური API-ები, საბრძოლო გამოცდილებით გამოცდილი; ზოგჯერ ყველაფერი რაც გჭირდებათ. [4] |
| PyTorch | კვლევისთვის ხელსაყრელი ტრენინგი | უფასო | დინამიური გრაფიკები, მასიური ეკოსისტემა, მრავალი სახელმძღვანელო. |
| TensorFlow/Keras | მასშტაბური წარმოება | უფასო | ზრდასრული სერვირების ვარიანტები, კარგია როგორც მობილურისთვის, ასევე კიდეებისთვის. |
| ულტრალიტიკები YOLO | ობიექტის სწრაფი ამოცნობა | უფასო + ფასიანი დამატებები | მარტივი სავარჯიშო ციკლი, კონკურენტუნარიანი სიჩქარე-სიზუსტე, თავდაჯერებული, მაგრამ კომფორტული. |
| Detector2 / MMDetection | ძლიერი საბაზისო ხაზები, სეგმენტაცია | უფასო | რეპროდუცირებადი შედეგების მქონე საცნობარო დონის მოდელები. |
| OpenVINO / ONNX-ის გაშვების დრო | დასკვნის ოპტიმიზაცია | უფასო | შეამცირეთ შეყოვნება, ფართოდ განათავსეთ გადაწერის გარეშე. |
| ტესერაქტი | OCR ბიუჯეტის ფარგლებში | უფასო | წესიერად მუშაობს, თუ სურათს გაწმენდთ... ზოგჯერ ეს მართლაც აუცილებელია. |
რა განაპირობებს კომპიუტერული ხედვის ხარისხს ხელოვნურ ინტელექტში 🔧
-
მონაცემთა დაფარვა : განათების ცვლილებები, კუთხეები, ფონი, კიდეების შემთხვევები. თუ ეს შესაძლებელია, ჩართეთ.
-
ეტიკეტის ხარისხი : შეუსაბამო უჯრები ან დაუდევარი პოლიგონები აზიანებს mAP-ს. მცირე ხარისხის შემოწმებაც კი ბევრს ნიშნავს.
-
ჭკვიანი გაძლიერებები : ჩამოჭრა, შეტრიალება, სიკაშკაშის რხევის შეცვლა, სინთეზური ხმაურის დამატება. იყავით რეალისტები და არა შემთხვევითი ქაოსი.
-
მოდელის შერჩევის მორგება : გამოიყენეთ აღმოჩენა იქ, სადაც აღმოჩენაა საჭირო - ნუ აიძულებთ კლასიფიკატორს, გამოიცნოს მდებარეობა.
-
გავლენის შესაბამისი მეტრიკები : თუ ცრუ უარყოფითი შედეგები უფრო მტკივნეულია, ოპტიმიზაცია გაუკეთეთ გახსენებას. თუ ცრუ დადებითი შედეგები უფრო მტკივნეულია, პირველ რიგში სიზუსტე.
-
მჭიდრო უკუკავშირის ციკლი : შეცდომების ჟურნალირება, ხელახლა იარლიყის აღება, ხელახლა მომზადება. გამორეცხვა, გამეორება. ოდნავ მოსაწყენი - ძალიან ეფექტური.
აღმოჩენის/სეგმენტაციისთვის, საზოგადოების სტანდარტია საშუალო სიზუსტე, რომელიც საშუალოდ გამოითვლება IoU ზღურბლებს შორის - იგივე COCO სტილის mAP . იმის ცოდნა, თუ როგორ გამოითვლება IoU და AP@{0.5:0.95}, ხელს უშლის ლიდერბორდის პრეტენზიების ათწილადებით დაბრმავებას. [3]
რეალური გამოყენების შემთხვევები, რომლებიც ჰიპოთეტური არ არის 🌍
-
საცალო ვაჭრობა : თაროების ანალიტიკა, დანაკარგების პრევენცია, რიგის მონიტორინგი, პლანოგრამის შესაბამისობა.
-
წარმოება : ზედაპირული დეფექტების აღმოჩენა, აწყობის შემოწმება, რობოტის მართვა.
-
ჯანდაცვა : რადიოლოგიური ტრიაჟი, ინსტრუმენტებით აღმოჩენა, უჯრედების სეგმენტაცია.
-
მობილურობა : ადრენალინის საწინააღმდეგო სისტემა, საგზაო კამერები, პარკირების ადგილების დაკავებულობა, მიკრომობილურობის თვალყურის დევნება.
-
სოფლის მეურნეობა : მოსავლის დათვლა, დაავადებების აღმოჩენა, მოსავლის მზადყოფნა.
-
დაზღვევა და ფინანსები : ზიანის შეფასება, KYC შემოწმებები, თაღლითობის ნიშნები.
-
მშენებლობა და ენერგეტიკა : უსაფრთხოების ნორმების დაცვა, გაჟონვის აღმოჩენა, კოროზიის მონიტორინგი.
-
კონტენტი და ხელმისაწვდომობა : ავტომატური სუბტიტრები, მოდერაცია, ვიზუალური ძიება.
შეამჩნევთ ნიმუშს: ხელით სკანირება შეცვალეთ ავტომატური ტრიაჟით, შემდეგ კი ადამიანებზე გადადით, როდესაც თავდაჯერებულობა შემცირდება. არა მომხიბვლელი, მაგრამ მასშტაბურია.
მონაცემები, ეტიკეტები და მნიშვნელოვანი მეტრიკები 📊
-
კლასიფიკაცია : სიზუსტე, F1 დისბალანსისთვის.
-
აღმოჩენა : mAP IoU ზღურბლებს შორის; კლასის მიხედვით AP-ისა და ზომის ბუკეტების შემოწმება. [3]
-
სეგმენტაცია : mIoU, Dice; შეამოწმეთ ეგზემპლარის დონის შეცდომებიც.
-
თვალთვალი : MOTA, IDF1; ხელახალი იდენტიფიკაციის ხარისხი ჩუმი გმირია.
-
OCR : სიმბოლოების შეცდომის მაჩვენებელი (CER) და სიტყვების შეცდომის მაჩვენებელი (WER); განლაგების შეცდომები ხშირად დომინირებს.
-
რეგრესიული ამოცანები : სიღრმე ან პოზა იყენებს აბსოლუტურ/ფარდობით შეცდომებს (ხშირად ლოგარითმულ შკალებზე).
დოკუმენტირებული გქონდეთ თქვენი შეფასების პროტოკოლი, რათა სხვებმაც შეძლონ მისი გამეორება. ეს არასექსუალურია, მაგრამ გულწრფელობას გინარჩუნებთ.
აწყობა vs ყიდვა - და სად უნდა გავუშვათ 🏗️
-
ღრუბელი : ყველაზე მარტივი დასაწყებად, შესანიშნავია პარტიული სამუშაო დატვირთვებისთვის. თვალყური ადევნეთ გასასვლელ ხარჯებს.
-
Edge მოწყობილობები : დაბალი შეყოვნება და უკეთესი კონფიდენციალურობა. თქვენ იზრუნებთ კვანტიზაციაზე, დამუშავებაზე და ამაჩქარებლებზე.
-
მობილურ მოწყობილობაზე : შესანიშნავია, როდესაც ჯდება. ოპტიმიზაცია გაუკეთეთ მოდელებს და დააკვირდით ბატარეას.
-
ჰიბრიდი : წინასწარი ფილტრი კიდეზე, მძიმე სამუშაო ღრუბელში. კარგი კომპრომისია.
მოსაწყენად საიმედო დასტა: პროტოტიპის შექმნა PyTorch-ით, სტანდარტული დეტექტორის მომზადება, ONNX-ში ექსპორტი, OpenVINO/ONNX Runtime-ით აჩქარება და OpenCV-ის გამოყენება წინასწარი დამუშავებისა და გეომეტრიისთვის (კალიბრაცია, ჰომოგრაფია, მორფოლოგია). [4]
რისკები, ეთიკა და რთული საკითხები, რომლებზეც საუბარია ⚖️
მხედველობის სისტემებს შეუძლიათ მემკვიდრეობით მიიღონ მონაცემთა ნაკრების მიკერძოება ან ოპერაციული ბრმა წერტილები. დამოუკიდებელმა შეფასებებმა (მაგ., NIST FRVT) გაზომეს დემოგრაფიული განსხვავებები სახის ამოცნობის შეცდომების მაჩვენებლებში ალგორითმებისა და პირობების მიხედვით. ეს არ არის პანიკის მიზეზი, მაგრამ ეს არის მიზეზი, რომ ფრთხილად გამოსცადოთ, დოკუმენტიროთ შეზღუდვები და მუდმივად აკონტროლოთ წარმოებაში. თუ იყენებთ იდენტობასთან ან უსაფრთხოებასთან დაკავშირებულ გამოყენების შემთხვევებს, ჩართეთ ადამიანის მიერ განხილვისა და გასაჩივრების მექანიზმები. კონფიდენციალურობა, თანხმობა და გამჭვირვალობა არ არის დამატებითი არჩევითი პირობები. [5]
სწრაფი დაწყების გზამკვლევი, რომლის დაცვაც რეალურად შეგიძლიათ 🗺️
-
გადაწყვეტილების განსაზღვრა
რა ქმედება უნდა განახორციელოს სისტემამ სურათის ნახვის შემდეგ? ეს ხელს გიშლით ამაო მეტრიკის ოპტიმიზაციაში. -
შეაგროვეთ მონაცემთა ნაკრების მცირე ფრაგმენტები.
დაიწყეთ რამდენიმე ასეული სურათით, რომელიც ასახავს თქვენს რეალურ გარემოს. ყურადღებით მიამაგრეთ წარწერები - თუნდაც ეს თქვენ და სამი წებოვანი ფურცელი იყოთ. -
აირჩიეთ საბაზისო მოდელი.
აირჩიეთ მარტივი ხერხემალი წინასწარ მომზადებული წონებით. ჯერ ეგზოტიკურ არქიტექტურებს ნუ მისდევთ. [1] -
აწარმოეთ ტრენინგი, აღრიცხეთ და შეაფასეთ.
თვალყური ადევნეთ მეტრიკას, დაბნეულობის წერტილებს და წარუმატებლობის რეჟიმებს. შეინახეთ „უცნაური შემთხვევების“ - თოვლის, ნათების, ანარეკლებისა და უცნაური შრიფტების - ბლოკნოტი. -
მარყუჟის გამკაცრება
დაამატეთ მყარი ნეგატივები, გაასწორეთ ეტიკეტის გადახრა, დაარეგულირეთ გაძლიერებები და ხელახლა დაარეგულირეთ ზღურბლები. მცირე ცვლილებები გროვდება. [3] -
განათავსეთ მოქნილი ვერსია,
კვანტიზირება და ექსპორტი. გაზომეთ შეყოვნება/გამტარუნარიანობა რეალურ გარემოში და არა სათამაშო ბენჩმარკში. -
მონიტორინგი და იტერაცია.
შეაგროვეთ წარუმატებლობის შემთხვევები, ხელახლა იარლიყი და ხელახლა გადაამზადეთ. დაგეგმეთ პერიოდული შეფასებები, რათა თქვენი მოდელი არ გაქრეს.
პროფესიონალური რჩევა: დააკომენტარეთ თქვენი ყველაზე ცინიკური თანაგუნდელის მიერ შექმნილი პატარა „დამაბრკოლებელი“ ნაკრები. თუ მათ მასში ხვრელების გატეხვა არ შეუძლიათ, ალბათ მზად ხართ.
გავრცელებული ხრიკები, რომელთა თავიდან აცილებაც მოგინდებათ 🧨
-
სუფთა სტუდიურ სურათებზე ტრენინგი, რეალურ სამყაროში გადატანა ლინზაზე წვიმის დროს.
-
ოპტიმიზაცია საერთო mAP-ისთვის, როდესაც ნამდვილად ერთი კრიტიკული კლასი გაინტერესებთ. [3]
-
კლასობრივი დისბალანსის იგნორირება და შემდეგ იმის გაფიქრება, თუ რატომ ქრება იშვიათი მოვლენები.
-
ზედმეტად გაზრდა მანამ, სანამ მოდელი არ ისწავლის ხელოვნურ არტეფაქტებს.
-
კამერის კალიბრაციის გამოტოვება და შემდეგ პერსპექტივის შეცდომებთან ბრძოლა სამუდამოდ. [4]
-
ლიდერბორდის ციფრების დაჯერება შეფასების ზუსტი სისტემის რეპლიკაციის გარეშე. [2][3]
წყაროები, რომლებიც სანიშნეებში უნდა ჩაწეროთ 🔗
თუ გიყვართ ძირითადი მასალები და კურსის შენიშვნები, ეს მასალები ნამდვილად შესანიშნავია საფუძვლების, პრაქტიკისა და საორიენტაციო მაჩვენებლებისთვის. ბმულებისთვის იხილეთ ცნობარების განყოფილება: CS231n შენიშვნები, ImageNet-ის საგამოძიებო ნაშრომი, COCO მონაცემთა ნაკრების/შეფასების დოკუმენტები, OpenCV დოკუმენტები და NIST FRVT ანგარიშები. [1][2][3][4][5]
დასკვნითი შენიშვნები - ანუ ძალიან გრძელი, არ წამიკითხავს 🍃
ხელოვნურ ინტელექტში კომპიუტერული ხედვა პიქსელებს გადაწყვეტილებებად გარდაქმნის. ის მაშინ ბრწყინავს, როდესაც სწორ დავალებას სწორ მონაცემებთან აკავშირებთ, სწორ ნივთებს გაზომავთ და უჩვეულო დისციპლინით იმეორებთ. ინსტრუმენტები დიდია, საორიენტაციო მაჩვენებლები საჯაროა და პროტოტიპიდან წარმოებამდე გზა გასაკვირი მოკლეა, თუ საბოლოო გადაწყვეტილებაზე გაამახვილებთ ყურადღებას. სწორად დაასახელეთ თქვენი ეტიკეტები, აირჩიეთ მეტრიკები, რომლებიც გავლენას შეესაბამება და მოდელებს მიეცით საშუალება, მძიმე სამუშაო შეასრულონ. და თუ მეტაფორა დაგეხმარებათ - წარმოიდგინეთ ეს, როგორც ძალიან სწრაფი, მაგრამ პირდაპირი მნიშვნელობის სტაჟიორისთვის მნიშვნელოვანის ამოცნობის სწავლება. თქვენ აჩვენებთ მაგალითებს, ასწორებთ შეცდომებს და თანდათანობით ენდობით მას რეალურ სამუშაოს. არა სრულყოფილი, მაგრამ საკმარისად ახლოსაა ტრანსფორმაციისთვის. 🌟
ცნობები
-
CS231n: კომპიუტერული ხედვის ღრმა სწავლება (კურსის შენიშვნები) - სტენფორდის უნივერსიტეტი.
წაიკითხეთ მეტი -
ImageNet-ის ფართომასშტაბიანი ვიზუალური ამოცნობის გამოწვევა (ნაშრომი) - რუსაკოვსკი და სხვ.
წაიკითხეთ მეტი. -
COCO მონაცემთა ნაკრები და შეფასება - ოფიციალური საიტი (დავალებების განმარტებები და mAP/IoU კონვენციები).
წაიკითხეთ მეტი -
OpenCV დოკუმენტაცია (v4.x) - მოდულები წინასწარი დამუშავებისთვის, კალიბრაციისთვის, მორფოლოგიისთვის და ა.შ.
წაიკითხეთ მეტი -
NIST FRVT ნაწილი 3: დემოგრაფიული ეფექტები (NISTIR 8280) - სახის ამოცნობის სიზუსტის დამოუკიდებელი შეფასება დემოგრაფიულ ჯგუფებში.
წაიკითხეთ მეტი