როგორ გავზომოთ ხელოვნური ინტელექტის მუშაობა?

თუ ოდესმე გამოგიგზავნიათ მოდელი, რომელიც ნოუთბუქში ბრწყინავდა, მაგრამ წარმოებაში წააწყდა პრობლემას, უკვე იცით საიდუმლო: ხელოვნური ინტელექტის მუშაობის გაზომვა ერთი ჯადოსნური მეტრიკა არ არის. ეს არის შემოწმების სისტემა, რომელიც რეალურ სამყაროს მიზნებს უკავშირდება. სიზუსტე სასიამოვნოა. საიმედოობა, უსაფრთხოება და ბიზნესზე გავლენა უკეთესია.

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 როგორ ვესაუბროთ ხელოვნურ ინტელექტს
ხელოვნური ინტელექტით ეფექტური კომუნიკაციის სახელმძღვანელო მუდმივად უკეთესი შედეგების მისაღწევად.

🔗 რა არის ხელოვნური ინტელექტის სტიმულირება?
განმარტავს, თუ როგორ აყალიბებს მოთხოვნები ხელოვნური ინტელექტის მიერ გაცემულ პასუხებსა და გამომავალი ხარისხს.

🔗 რა არის ხელოვნური ინტელექტის მონაცემთა მარკირება?
სასწავლო მოდელებისთვის მონაცემებზე ზუსტი ეტიკეტების მინიჭების მიმოხილვა.

🔗 რა არის ხელოვნური ინტელექტის ეთიკა?
პასუხისმგებლიანი ხელოვნური ინტელექტის განვითარებისა და განლაგების ეთიკური პრინციპების შესავალი.

რა განაპირობებს ხელოვნური ინტელექტის კარგ მუშაობას? ✅

მოკლე ვერსია: ხელოვნური ინტელექტის კარგი მუშაობა ნიშნავს, რომ თქვენი სისტემა სასარგებლო, სანდო და განმეორებადია არეულ, ცვალებად პირობებში. კონკრეტულად:

დავალების ხარისხი - ის იღებს სწორ პასუხებს სწორი მიზეზების გამო.
კალიბრაცია - ნდობის ქულები რეალობას ემთხვევა, ასე რომ თქვენ შეგიძლიათ გონივრული ქმედებები განახორციელოთ.
გამძლეობა - ის კარგად უძლებს დრეიფს, კიდეების კორპუსებს და მოწინააღმდეგეობრივ ბურუსს.
უსაფრთხოება და სამართლიანობა - ის თავს არიდებს მავნე, მიკერძოებულ ან შეუსაბამო ქცევას.
ეფექტურობა - ის საკმარისად სწრაფი, იაფი და სტაბილურია მასშტაბურად სამუშაოდ.
ბიზნესზე გავლენა - ის რეალურად ცვლის თქვენთვის მნიშვნელოვან KPI-ს.

თუ გსურთ მეტრიკისა და რისკების შესაბამისობის ოფიციალური საცნობარო წერტილი, NIST AI რისკების მართვის ჩარჩო საიმედო სისტემის შეფასების მყარი არგუმენტია. [1]

ხელოვნური ინტელექტის მუშაობის გაზომვის მაღალი დონის რეცეპტი 🍳

სამ ფენად დაფიქრდით :

დავალების მეტრიკა - დავალების ტიპის სისწორე: კლასიფიკაცია, რეგრესია, რანჟირება, გენერირება, კონტროლი და ა.შ.
სისტემის მეტრიკები - შეყოვნება, გამტარუნარიანობა, ზარის ღირებულება, წარუმატებლობის მაჩვენებლები, ცვლის სიგნალიზაცია, უწყვეტი მუშაობის დროის SLA-ები.
შედეგის მეტრიკა - ბიზნესისა და მომხმარებლის შედეგები, რომელთა მიღწევაც რეალურად გსურთ: კონვერსია, შენარჩუნება, უსაფრთხოების ინციდენტები, ხელით განხილვის დატვირთვა, ბილეთების რაოდენობა.

კარგი გაზომვის გეგმა განზრახ აერთიანებს სამივეს. წინააღმდეგ შემთხვევაში, მიიღებთ რაკეტას, რომელიც ვერასდროს დატოვებს გამშვები პლატფორმიდან.

ძირითადი მეტრიკები პრობლემის ტიპის მიხედვით - და როდის რომელი გამოვიყენოთ 🎯

1) კლასიფიკაცია

სიზუსტე, გახსენება, F1 - პირველი დღის ტრიო. F1 არის სიზუსტისა და გახსენების ჰარმონიული საშუალო; სასარგებლოა, როდესაც კლასები დაუბალანსებელია ან ხარჯები ასიმეტრიულია. [2]
ROC-AUC - კლასიფიკატორების ზღურბლ-აგნოსტიკური რანჟირება; როდესაც დადებითი შედეგები იშვიათია, ასევე შეამოწმეთ PR-AUC. [2]
დაბალანსებული სიზუსტე - კლასებს შორის დამახსოვრების საშუალო მაჩვენებელი; მოსახერხებელია დამახინჯებული ეტიკეტებისთვის. [2]

ხაფანგების მონიტორინგი: მხოლოდ სიზუსტე შეიძლება შეცდომაში შემყვანი იყოს დისბალანსის გამო. თუ მომხმარებელთა 99% ლეგიტიმურია, სულელური, ყოველთვის ლეგიტიმური მოდელი 99%-იან ქულას იღებს და თქვენს თაღლითობის გუნდს სადილამდე ვერ გაამართლებს.

2) რეგრესია

MAE ადამიანის მიერ წასაკითხი შეცდომისთვის; RMSE , როდესაც გსურთ დიდი შეცდომების დასჯა; R² ახსნილია ვარიაციისთვის. შემდეგ კი საღი აზრის შემოწმების განაწილებები და ნარჩენი დიაგრამები. [2]
(გამოიყენეთ დომენისთვის მოსახერხებელი ერთეულები, რათა დაინტერესებულმა მხარეებმა რეალურად იგრძნონ შეცდომა.)

3) რანჟირება, მოძიება, რეკომენდაციები

nDCG - ზრუნავს პოზიციასა და შეფასებულ შესაბამისობაზე; ძიების ხარისხის სტანდარტი.
MRR - ფოკუსირებულია იმაზე, თუ რამდენად სწრაფად ჩნდება პირველი შესაბამისი ერთეული (შესანიშნავია „ერთი კარგი პასუხის პოვნა“ ამოცანებისთვის).
(იმპლემენტაციის ცნობები და დამუშავებული მაგალითები მოცემულია ძირითად მეტრულ ბიბლიოთეკებში.) [2]

4) ტექსტის გენერირება და შეჯამება

ლურჯი და წითელი - კლასიკური გადაფარვის მეტრიკები; სასარგებლოა როგორც საბაზისო ხაზები.
ჩაშენებაზე დაფუძნებული მეტრიკები (მაგ., BERTScore) ხშირად უკეთესად კორელაციაშია ადამიანის განსჯასთან; ყოველთვის ემთხვევა სტილის, ერთგულების და უსაფრთხოების ადამიანის შეფასებებს. [4]

5) კითხვა-პასუხი

ექსტრაქციული ხარისხის უზრუნველყოფისთვის დამახასიათებელია ზუსტი დამთხვევა და ტოკენის დონის F1 ; თუ პასუხებში წყაროები უნდა იყოს მითითებული, ასევე გაზომეთ დამიწება (პასუხის მხარდაჭერის შემოწმება).

კალიბრაცია, თავდაჯერებულობა და Brier-ის ლინზა 🎚️

ნდობის ქულები არის ის, სადაც ბევრი სისტემა ჩუმად დევს. თქვენ გჭირდებათ ალბათობები, რომლებიც ასახავს რეალობას, რათა ოპერაციულმა ჯგუფებმა შეძლონ ზღვრების, ადამიანებზე მარშრუტის ან რისკის ფასის დადგენა.

კალიბრაციის მრუდები - პროგნოზირებული ალბათობისა და ემპირიული სიხშირის ვიზუალიზაცია.
ბრაიერის ქულა - ალბათური სიზუსტის სათანადო შეფასების წესი; რაც უფრო დაბალია, მით უკეთესი. ის განსაკუთრებით სასარგებლოა, როდესაც ზრუნავთ ალბათობის ხარისხზე და არა მხოლოდ რანჟირებაზე. [3]

შენიშვნა: ოდნავ „უარესი“ F1, მაგრამ გაცილებით უკეთესი კალიბრაცია მნიშვნელოვნად გააუმჯობესებს ტრიაჟს - რადგან ადამიანებს საბოლოოდ შეეძლებათ ქულების ნდობა.

უსაფრთხოება, მიკერძოება და სამართლიანობა - გაზომეთ ის, რაც მნიშვნელოვანია 🛡️⚖️

სისტემა შეიძლება იყოს ზუსტი, მაგრამ მაინც ზიანი მიაყენოს კონკრეტულ ჯგუფებს. თვალყური ადევნეთ დაჯგუფებულ მეტრიკას და სამართლიანობის კრიტერიუმებს:

დემოგრაფიული პარიტეტი - ჯგუფებს შორის თანაბარი დადებითი მაჩვენებლები.
თანაბარი შანსები / თანაბარი შესაძლებლობები - ჯგუფებს შორის შეცდომის თანაბარი ან ჭეშმარიტად დადებითი მაჩვენებლები; გამოიყენეთ ეს კომპრომისების აღმოსაჩენად და სამართავად და არა ერთჯერადი გადასვლისა და წარუმატებლობის შტამპებად. [5]

პრაქტიკული რჩევა: დაიწყეთ დაფებით, რომლებიც ძირითად მეტრიკებს ძირითადი ატრიბუტების მიხედვით ყოფენ, შემდეგ კი თქვენი პოლიტიკის მოთხოვნების შესაბამისად დაამატეთ კონკრეტული სამართლიანობის მეტრიკები. ეს რთულად ჟღერს, მაგრამ ინციდენტზე იაფია.

LLM და RAG - გაზომვის სახელმძღვანელო, რომელიც რეალურად მუშაობს 📚🔍

გენერაციული სისტემების გაზომვა... რთულია. გააკეთეთ შემდეგი:

განსაზღვრეთ შედეგები გამოყენების თითოეული შემთხვევისთვის: სისწორე, სასარგებლოობა, უვნებლობა, სტილის დაცვა, ბრენდის ტონი, ციტირების დასაბუთება, უარყოფის ხარისხი.
ავტომატიზირეთ საბაზისო შეფასებები ძლიერი ჩარჩოებით (მაგ., თქვენს სტეკში არსებული შეფასების ინსტრუმენტებით) და შეინარჩუნეთ მათი ვერსიები თქვენს მონაცემთა ნაკრებებთან ერთად.
გონივრულობისთვის დაამატეთ სემანტიკური მეტრიკები (ჩანერგვაზე დაფუძნებული) პლუს გადაფარვის მეტრიკები (BLEU/ROUGE). [4]
ინსტრუმენტის დამიწება RAG-ში: მოძიების დარტყმის სიხშირე, კონტექსტის სიზუსტე/გამოძახება, პასუხისა და მხარდაჭერის გადაფარვა.
ადამიანის მიერ შეთანხმებით განხორციელებული მიმოხილვა - გაზომეთ შემფასებლის თანმიმდევრულობა (მაგ., კოენის κ ან ფლეისის κ), რათა თქვენი იარლიყები არ იყოს ვიბრაციები.

ბონუსი: შეყოვნების პროცენტული მაჩვენებლების და ტოკენების ან თითოეული დავალების ღირებულების ჟურნალირება. არავის უყვარს პოეტური პასუხი, რომელიც მომავალ სამშაბათს მოვა.

შედარების ცხრილი - ინსტრუმენტები, რომლებიც დაგეხმარებათ ხელოვნური ინტელექტის მუშაობის გაზომვაში 🛠️📊

(დიახ, ეს განგებ ცოტა არეულია - ნამდვილი ნოტებიც არეულია.)

ინსტრუმენტი	საუკეთესო აუდიტორია	ფასი	რატომ მუშაობს - სწრაფი მიმოხილვა
scikit-learn-ის მეტრიკა	მანქანური სწავლების სპეციალისტები	უფასო	კანონიკური იმპლემენტაციები კლასიფიკაციისთვის, რეგრესიისთვის, რანჟირებისთვის; ადვილად ინტეგრირებადი ტესტებში. [2]
MLflow-ის შეფასება / GenAI	მონაცემთა მეცნიერები, MLOps	უფასო + ფასიანი	ცენტრალიზებული გარბენი, ავტომატიზირებული მეტრიკა, LLM მსაჯები, მორგებული ქულების დამთვლელი; არტეფაქტების სუფთად აღრიცხვა.
ცხადია	გუნდებს სურთ სწრაფი დაფები	OSS + ღრუბელი	100-ზე მეტი მეტრიკა, დრიფტისა და ხარისხის ანგარიშები, მონიტორინგის ჰუკები - სასიამოვნო ვიზუალი საგანგებო სიტუაციებში.
წონა და მიკერძოებები	ექსპერიმენტებით დატვირთული ორგანიზაციები	უფასო იარუსი	გვერდიგვერდ შედარებები, შეფასებითი მონაცემთა ნაკრებები, მსაჯულები; ცხრილები და კვალი საკმაოდ მოწესრიგებულია.
ლენგსმიტი	LLM აპლიკაციების შემქმნელები	გადახდილი	თვალყური ადევნეთ ყოველ ნაბიჯს, შეურიეთ ადამიანური მიმოხილვა წესების ან LLM შემფასებლებს; შესანიშნავია RAG-ისთვის.
TruLens	ღია კოდის LLM შეფასების მოყვარულები	ღია ოფისი	უკუკავშირის ფუნქციები ტოქსიკურობის, დამიწებულობის, შესაბამისობის შესაფასებლად; ინტეგრირება ნებისმიერ ადგილას.
დიდი მოლოდინები	მონაცემთა ხარისხზე ორიენტირებული ორგანიზაციები	ღია ოფისი	ფორმალიზეთ მონაცემებთან დაკავშირებული მოლოდინები - რადგან ცუდი მონაცემები ისედაც ყველა მეტრიკას აფუჭებს.
ღრმა შემოწმება	ტესტირება და CI/CD ML-ისთვის	OSS + ღრუბელი	ბატარეები - მონაცემთა ცვლის, მოდელის პრობლემებისა და მონიტორინგის ტესტირება; კარგი დამცავი მოაჯირები.

ფასები იცვლება - შეამოწმეთ დოკუმენტაცია. დიახ, შეგიძლიათ მათი შერევა ხელსაწყოების პოლიციის გარეშე.

ზღურბლები, ხარჯები და გადაწყვეტილების მიღების მრუდები - საიდუმლო რეცეპტი 🧪

უცნაური, მაგრამ სიმართლეა: ერთი და იგივე ROC-AUC-ის მქონე ორ მოდელს შეიძლება ჰქონდეს ძალიან განსხვავებული ბიზნეს ღირებულება, თქვენი ზღურბლისა და ხარჯების კოეფიციენტების.

სწრაფი ასაშენებელი ფურცელი:

დაადგინეთ ცრუ დადებითი და ცრუ უარყოფითი პასუხის ღირებულება ფულში ან დროში.
ზღურბლების გაანალიზება და 1 ათას გადაწყვეტილებაზე მოსალოდნელი ღირებულების გამოთვლა.
აირჩიეთ მინიმალური მოსალოდნელი ღირებულების ზღვარი, შემდეგ კი დააფიქსირეთ იგი მონიტორინგით.

როდესაც დადებითი მაჩვენებლები იშვიათია, გამოიყენეთ PR მრუდები, ზოგადი ფორმისთვის - ROC მრუდები, ხოლო კალიბრაციის მრუდები, როდესაც გადაწყვეტილებები ალბათობებზეა დამოკიდებული. [2][3]

მინი-მაგალითი: მხარდაჭერის ბილეთების დახარისხების მოდელი მოკრძალებული F1-ით, მაგრამ შესანიშნავი კალიბრაციით, რომელიც წყვეტს ხელით გადამისამართებებს მას შემდეგ, რაც ოპერაციები გადადის მკაცრი ზღურბლიდან მრავალდონიან მარშრუტიზაციაზე (მაგ., „ავტომატური გადაწყვეტა“, „ადამიანის მიერ განხილვა“, „ესკალაცია“) და მიბმულია კალიბრირებულ ქულების დიაპაზონებთან.

ონლაინ მონიტორინგი, დრიფტი და გაფრთხილება 🚨

ოფლაინ შეფასებები დასაწყისია და არა დასასრული. წარმოებაში:

შეყვანის დრიფტის , გამომავალი დრიფტის და შესრულების კლების თვალყურის დევნება სეგმენტის მიხედვით.
დააყენეთ დამცავი ღობეების შემოწმება - ჰალუცინაციების მაქსიმალური სიხშირე, ტოქსიკურობის ზღურბლები, სამართლიანობის დელტაები.
დაამატეთ Canary-ის დაფები p95 შეყოვნების, ვადების ამოწურვისა და მოთხოვნის ღირებულებისთვის.
ამის დასაჩქარებლად გამოიყენეთ სპეციალურად შექმნილი ბიბლიოთეკები; ისინი გთავაზობენ დრიფტს, ხარისხს და მონიტორინგის პრიმიტივებს დაუყოვნებლივ.

პატარა არასრულყოფილი მეტაფორა: წარმოიდგინეთ თქვენი მოდელი, როგორც ხაჭოს საფუარი - თქვენ არ აცხობთ ერთხელ და მიდიხართ; კვებავთ, უყურებთ, ყნოსავთ და ზოგჯერ თავიდან იწყებთ.

ადამიანური შეფასება, რომელიც არ იმსხვრევა 🍪

როდესაც ადამიანები შედეგებს აფასებენ, პროცესი უფრო მნიშვნელოვანია, ვიდრე თქვენ გგონიათ.

დაწერეთ მკაცრი რუბრიკები წარმატების, სასაზღვრო და წარუმატებლობის მაგალითებით.
შეძლებისდაგვარად, შემთხვევითი შერჩევის პრინციპით დაფარეთ ნიმუშები.
გაზომეთ შემფასებლებს შორის თანხვედრა (მაგ., კოენის κ ორი შემფასებლისთვის, ფლეისის κ ბევრისთვის) და განაახლეთ რუბრიკები, თუ თანხვედრა არ არის.

ეს ხელს უშლის თქვენი ადამიანური იარლიყების შეცვლას განწყობის ან ყავის მარაგის მიხედვით.

ღრმა ანალიზი: როგორ გავზომოთ ხელოვნური ინტელექტის შესრულება RAG-ში LLM-ის სტუდენტებისთვის 🧩

მოძიების ხარისხი - recall@k, precision@k, nDCG; ოქროს ფაქტების გაშუქება. [2]
პასუხის სისწორე - ციტირებისა და გადამოწმების შემოწმებები, დასაბუთებულობის ქულები, შეჯიბრებითი კვლევები.
მომხმარებლის კმაყოფილება - ცერა თითები, დავალების შესრულება, რედაქტირების მანძილი შემოთავაზებული მონახაზებიდან.
უსაფრთხოება - ტოქსიკურობა, პირადი ინფორმაციის გაჟონვა, პოლიტიკის დაცვა.
ღირებულება და შეყოვნება - ტოკენები, ქეშის ჰიტები, p95 და p99 შეყოვნებები.

დაუკავშირეთ ეს ბიზნეს ქმედებებს: თუ დამიწებულება ზღვარს ქვემოთ დაეშვება, ავტომატურად გადადით მკაცრ რეჟიმზე ან ადამიანურ მიმოხილვაზე.

მარტივი ინსტრუქცია დღესვე დასაწყებად 🪄

განსაზღვრეთ სამუშაო - დაწერეთ ერთი წინადადება: რა უნდა გააკეთოს ხელოვნურმა ინტელექტმა და ვისთვის.
აირჩიეთ 2–3 დავალების მეტრიკა - პლუს კალიბრაცია და მინიმუმ ერთი სამართლიანობის ნაჭერი. [2][3][5]
ზღვრული მაჩვენებლები ღირებულების გამოყენებით განსაზღვრეთ - ნუ გამოიცნობთ.
შექმენით შეფასებების პატარა ნაკრები - 100–500 მონიშნული მაგალითი, რომლებიც ასახავს წარმოების მიქსს.
ავტომატიზირეთ თქვენი შეფასებები - გადაიტანეთ შეფასება/მონიტორინგი CI-ში, რათა ყველა ცვლილებამ იგივე შემოწმებები განახორციელოს.
მონიტორინგში - დრიფტი, შეყოვნება, ღირებულება, ინციდენტის დროშები.
გადახედეთ ყოველთვიურ ეტაპებს - გამორიცხეთ ისეთი მეტრიკები, რომლებსაც არავინ იყენებს; დაამატეთ ისეთები, რომლებიც რეალურ კითხვებს პასუხობს.
დოკუმენტირებული გადაწყვეტილებები - ცოცხალი ქულების ფურცელი, რომელსაც თქვენი გუნდი რეალურად კითხულობს.

დიახ, სიტყვასიტყვით ეს არის. და ეს მუშაობს.

გავრცელებული შეცდომები და როგორ ავიცილოთ თავიდან ისინი 🕳️🐇

ერთ მეტრიკაზე გადაჭარბებული მორგება - გამოიყენეთ მეტრიკის კალათა , რომელიც შეესაბამება გადაწყვეტილების კონტექსტს. [1][2]
კალიბრაციის იგნორირება - კალიბრაციის გარეშე თავდაჯერებულობა უბრალოდ თავხედობაა. [3]
სეგმენტაციის გარეშე - ყოველთვის დაყავით მომხმარებელთა ჯგუფების, გეოგრაფიის, მოწყობილობის, ენის მიხედვით. [5]
განუსაზღვრელი ხარჯები - თუ ფასში შეცდომებს არ დაადგენთ, არასწორ ზღვარს აირჩევთ.
ადამიანური შეფასების დრიფტი - თანხმობის გაზომვა, რუბრიკების განახლება, რეცენზენტების გადამზადება.
უსაფრთხოების ინსტრუმენტაცია არ არის საჭირო - დაამატეთ სამართლიანობის, ტოქსიკურობის და პოლიტიკის შემოწმებები ახლავე, არა მოგვიანებით. [1][5]

ფრაზა, რომლისთვისაც მოხვედი: როგორ გავზომოთ ხელოვნური ინტელექტის მუშაობა - The Too Long, I Din't Checked it 🧾

დაიწყეთ მკაფიო შედეგებით, შემდეგ კი დააწყვეთ დავალებების, სისტემისდა ბიზნეს მეტრიკები. [1]
გამოიყენეთ სამუშაოსთვის შესაფერისი მეტრიკები - F1 და ROC-AUC კლასიფიკაციისთვის; nDCG/MRR რანჟირებისთვის; გადაფარვა + სემანტიკური მეტრიკები გენერაციისთვის (ადამიანებთან შეწყვილებული). [2][4]
დააკალიბრეთ თქვენი ალბათობები და შეაფასეთ თქვენი შეცდომები ზღურბლების ასარჩევად. [2][3]
დაამატეთ სამართლიანობის შემოწმებები ჯგუფური ნაჭრებით და მართეთ კომპრომისები ექსპლიციტურად. [5]
ავტომატიზირეთ შეფასებები და მონიტორინგი , რათა შიშის გარეშე შეძლოთ იტერაცია.

თქვენ იცით, როგორ არის საქმე - გაზომეთ ის, რაც მნიშვნელოვანია, თორემ საბოლოოდ გააუმჯობესებთ იმას, რაც არ არის მნიშვნელოვანი.

ცნობები

[1] NIST. ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF). წაიკითხეთ მეტი
[2] scikit-learn. მოდელის შეფასება: პროგნოზების ხარისხის რაოდენობრივი განსაზღვრა (მომხმარებლის სახელმძღვანელო). წაიკითხეთ მეტი
[3] scikit-learn. ალბათობის კალიბრაცია (კალიბრაციის მრუდები, ბრიერის ქულა). წაიკითხეთ მეტი
[4] პაპინენი და სხვ. (2002). BLEU: მანქანური თარგმანის ავტომატური შეფასების მეთოდი. ACL. წაიკითხეთ მეტი
[5] ჰარდტი, პრაისი, სრებრო (2016). შესაძლებლობების თანასწორობა ზედამხედველობით სწავლებაში. NeurIPS. წაიკითხეთ მეტი

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება