მოკლე პასუხი: განსაზღვრეთ, როგორ გამოიყურება „კარგი“ თქვენი გამოყენების შემთხვევისთვის, შემდეგ გამოსცადეთ წარმომადგენლობითი, ვერსიური მოთხოვნებით და უპირატესი შემთხვევებით. დააკავშირეთ ავტომატიზირებული მეტრიკები ადამიანური რუბრიკის შეფასებასთან, შეჯიბრებითი უსაფრთხოებისა და მოთხოვნების ინექციის შემოწმებებთან ერთად. თუ ხარჯების ან შეყოვნების შეზღუდვები სავალდებულო გახდება, შეადარეთ მოდელები დავალების წარმატებით დახარჯულ ფუნტზე და p95/p99 რეაგირების დროის მიხედვით.
ძირითადი დასკვნები:
ანგარიშვალდებულება : დანიშნეთ მკაფიო მფლობელები, შეინახეთ ვერსიის ჟურნალები და ხელახლა ჩაატარეთ შეფასებები ნებისმიერი მოთხოვნის ან მოდელის ცვლილების შემდეგ.
გამჭვირვალობა : ქულების შეგროვებამდე ჩამოწერეთ წარმატების კრიტერიუმები, შეზღუდვები და წარუმატებლობის ხარჯები.
აუდიტირება : შეინარჩუნეთ განმეორებადი ტესტების ნაკრები, მონიშნული მონაცემთა ნაკრებები და თვალყურის დევნებული p95/p99 შეყოვნების მეტრიკა.
სადავოა : სადავო შედეგებისთვის გამოიყენეთ ადამიანის მიერ შემოწმების რუბრიკები და განსაზღვრული სააპელაციო გზა.
ბოროტად გამოყენებისადმი წინააღმდეგობა : Red-Team-ის სწრაფი ინექცია, მგრძნობიარე თემები და მომხმარებლების დაცვაზე ზედმეტი უარი.
თუ პროდუქტისთვის, კვლევითი პროექტისთვის ან თუნდაც შიდა ინსტრუმენტისთვის მოდელს ირჩევთ, უბრალოდ „ჭკვიანურად ჟღერს“-ს თქმა და მისი გამოშვება შეუძლებელია (იხილეთ OpenAI-ის შეფასების სახელმძღვანელო და NIST AI RMF 1.0 ). ასე მიიღებთ ჩატბოტს, რომელიც თავდაჯერებულად აგიხსნით, თუ როგორ უნდა გააცხელოთ ჩანგალი მიკროტალღურ ღუმელში. 😬

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:
🔗 ხელოვნური ინტელექტის მომავალი: ტენდენციები, რომლებიც მომავალ ათწლეულს განსაზღვრავს.
ძირითადი ინოვაციები, სამუშაო ადგილებზე გავლენა და ეთიკა, რომელთა გათვალისწინებაც მომავალშია საჭირო.
🔗 გენერაციული ხელოვნური ინტელექტის საბაზისო მოდელების ახსნა დამწყებთათვის.
გაიგეთ, რას წარმოადგენენ ისინი, რამდენად გაწვრთნილები არიან და რატომ არიან მნიშვნელოვანი.
🔗 როგორ მოქმედებს ხელოვნური ინტელექტი გარემოსა და ენერგიის მოხმარებაზე.
შეისწავლეთ ემისიები, ელექტროენერგიის მოთხოვნა და მისი შემცირების გზები.
🔗 როგორ მუშაობს ხელოვნური ინტელექტის გაფართოება უფრო მკვეთრი სურათებისთვის დღეს
ნახეთ, როგორ ამატებენ მოდელები დეტალებს, აშორებენ ხმაურს და ადიდებენ სუფთად.
1) „კარგის“ განმარტება (დამოკიდებულია და ეს ნორმალურია) 🎯
ნებისმიერი შეფასების ჩატარებამდე გადაწყვიტეთ, როგორ გამოიყურება წარმატება. წინააღმდეგ შემთხვევაში ყველაფერს გაზომავთ და ვერაფერს ისწავლით. ეს იგივეა, რომ ნამცხვრების კონკურსში საზომი ლენტი მოიტანოთ. რა თქმა უნდა, ციფრებს მიიღებთ, მაგრამ ისინი ბევრს არაფერს გეტყვით 😅
დააზუსტეთ:
-
მომხმარებლის მიზანი : შეჯამება, ძიება, წერა, მსჯელობა, ფაქტების ამოღება
-
წარუმატებლობის ფასი : ფილმის არასწორი რეკომენდაცია სასაცილოა; არასწორი სამედიცინო ინსტრუქცია... სასაცილო არ არის (რისკის ჩარჩო: NIST AI RMF 1.0 ).
-
გაშვების გარემო : მოწყობილობაზე, ღრუბელში, firewall-ის მიღმა, რეგულირებად გარემოში
-
ძირითადი შეზღუდვები : შეყოვნება, მოთხოვნის ღირებულება, კონფიდენციალურობა, ახსნადობა, მრავალენოვანი მხარდაჭერა, ტონის კონტროლი
მოდელი, რომელიც ერთ სამსახურში „საუკეთესოა“, მეორეში შეიძლება კატასტროფა აღმოჩნდეს. ეს წინააღმდეგობა კი არა, რეალობაა. 🙂
2) როგორ გამოიყურება ხელოვნური ინტელექტის მოდელის შეფასების მყარი ჩარჩო 🧰
დიახ, ეს ის ნაწილია, რომელსაც ხალხი გამოტოვებს. ისინი იღებენ საორიენტაციო ტესტს, ერთხელ ატარებენ და ბოლოს ამთავრებენ. შეფასების მყარ ჩარჩოს რამდენიმე თანმიმდევრული მახასიათებელი აქვს (პრაქტიკული ინსტრუმენტების მაგალითები: OpenAI-ის შეფასებები / OpenAI-ის შეფასებების სახელმძღვანელო ):
-
განმეორებადი - შეგიძლიათ ხელახლა გაუშვათ შემდეგ კვირას და ენდოთ შედარებებს
-
წარმომადგენლობითი - ის ასახავს თქვენს რეალურ მომხმარებლებს და ამოცანებს (არა მხოლოდ წვრილმანებს)
-
მრავალშრიანი - აერთიანებს ავტომატიზირებულ მეტრიკებს + ადამიანის მიერ განხორციელებულ მიმოხილვას + შეჯიბრებით ტესტებს
-
ქმედითი - შედეგები გეუბნებათ რა უნდა გამოასწოროთ და არა მხოლოდ „ქულა შემცირდა“.
-
ხელშეუხებლობა - გამორიცხავს „ტესტზე სწავლებას“ ან შემთხვევით გაჟონვას
-
ხარჯების გათვალისწინება - თავად შეფასებამ არ უნდა გაგაკოტროთ (თუ ტკივილი არ გიყვართ)
თუ თქვენი შეფასება ვერ გაუძლებს სკეპტიკურად განწყობილი თანაგუნდელის სიტყვებს: „კარგი, მაგრამ ეს პროდუქტიულობას მიამაგრე“, მაშინ ის ჯერ არ დასრულებულა. ეს არის ვიბრაციის შემოწმება.
3) როგორ შევაფასოთ ხელოვნური ინტელექტის მოდელები, გამოყენების შემთხვევების ნაჭრებით დაწყებით 🍰
აი, ხრიკი, რომელიც უამრავ დროს დაგიზოგავთ: დაყავით გამოყენების შემთხვევა ნაწილებად .
„მოდელის შეფასების“ ნაცვლად, გააკეთეთ შემდეგი:
-
განზრახვის გაგება (მიიღებს თუ არა ის იმას, რაც მომხმარებელს სურს)
-
მოძიება ან კონტექსტის გამოყენება (სწორად იყენებს თუ არა მოწოდებულ ინფორმაციას)
-
მსჯელობა / მრავალსაფეხურიანი დავალებები (ინარჩუნებს თუ არა ის თანმიმდევრულობას ყველა ნაბიჯში)
-
ფორმატირება და სტრუქტურა (მიჰყვება თუ არა ინსტრუქციას)
-
უსაფრთხოებისა და პოლიტიკის შესაბამისობა (იცავს თუ არა ის სახიფათო კონტენტს; იხილეთ NIST AI RMF 1.0 )
-
ტონი და ბრენდის ჟღერადობა (ისე ჟღერს, როგორც გსურთ)
ეს „როგორ შევაფასოთ ხელოვნური ინტელექტის მოდელები“ ნაკლებად ჰგავს ერთ უზარმაზარ გამოცდას და უფრო მეტად მიზნობრივი ტესტების ერთობლიობას ჰგავს. ტესტები შემაწუხებელია, მაგრამ მართვადი. 😄
4) ოფლაინ შეფასების საფუძვლები - ტესტების ნაკრებები, ეტიკეტები და არასაინტერესო დეტალები, რომლებიც მნიშვნელოვანია 📦
ოფლაინ შეფასება არის ის, როდესაც თქვენ ატარებთ კონტროლირებად ტესტებს, სანამ მომხმარებლები რამეს შეეხებიან (სამუშაო პროცესის ნიმუშები: OpenAI Evals ).
შექმენით ან შეაგროვეთ ტესტების ნაკრები, რომელიც ნამდვილად თქვენია
კარგი ტესტების ნაკრები, როგორც წესი, მოიცავს:
-
ოქროს მაგალითები : იდეალური გამომავალი, რომელსაც სიამაყით გამოაგზავნიდით
-
რეგისტრის კიდეები : ორაზროვანი მოთხოვნები, მოუწესრიგებელი შეყვანა, მოულოდნელი ფორმატირება
-
წარუმატებლობის რეჟიმის ზონდები : ჰალუცინაციების ან სახიფათო პასუხების გამომწვევი სიგნალები (რისკის ტესტირების ჩარჩო: NIST AI RMF 1.0 )
-
მრავალფეროვნების დაფარვა : მომხმარებლის სხვადასხვა უნარების დონე, დიალექტები, ენები, დომენები
თუ მხოლოდ „სუფთა“ მოთხოვნებზე გამოსცდით, მოდელი საოცრად გამოიყურება. შემდეგ თქვენი მომხმარებლები ბეჭდვითი შეცდომებით, ნახევრად წინადადებებითა და გაბრაზებული დაწკაპუნების ენერგიით გამოჩნდებიან. კეთილი იყოს თქვენი მობრძანება რეალობაში.
ეტიკეტირების არჩევანი (ასევე ცნობილი როგორც: სიმკაცრის დონეები)
გამომავალ მონაცემებს შეგიძლიათ მონიშნოთ შემდეგნაირად:
-
ორობითი : გავლა/ჩავარდნა (სწრაფი, მკაცრი)
-
რიგითი : 1-5 ხარისხის ქულა (ნიუანსური, სუბიექტური)
-
მრავალატრიბუტი : სიზუსტე, სისრულე, ტონი, ციტირების გამოყენება და ა.შ. (საუკეთესო, ნელი)
მრავალატრიბუტი ბევრი გუნდისთვის იდეალური ვარიანტია. ეს ჰგავს საკვების გასინჯვას და მარილიანობის ტექსტურისგან განცალკევებულად შეფასებას. წინააღმდეგ შემთხვევაში, უბრალოდ იტყვით „კარგია“-ს და მხრებს აიჩეჩავთ.
5) მეტრიკები, რომლებიც არ იტყუებიან - და მეტრიკები, რომლებიც ერთგვარად იტყუებიან 📊😅
მეტრიკები ღირებულია... მაგრამ მათ ასევე შეუძლიათ ბრჭყვიალა ბომბის როლი შეასრულონ. მბზინავია ყველგან და ძნელია მათი გაწმენდა.
საერთო მეტრული ოჯახები
-
სიზუსტე / ზუსტი დამთხვევა : შესანიშნავია მოპოვების, კლასიფიკაციის, სტრუქტურირებული ამოცანებისთვის
-
F1 / სიზუსტე / გახსენება : მოსახერხებელია, როდესაც რაღაცის გამოტოვება ზედმეტ ხმაურზე უარესია (განმარტებები: scikit-learn სიზუსტე/გახსენება/F-ქულა )
-
ლურჯი/წითელი სტილის გადაფარვა : შესაფერისია შეჯამების მსგავსი ამოცანებისთვის, ხშირად შეცდომაში შემყვანია (ორიგინალი მეტრიკა: ლურჯი და წითელი )
-
მსგავსების ჩასმა : სასარგებლოა სემანტიკური შესაბამისობისთვის, შეუძლია დააჯილდოოს არასწორი, მაგრამ მსგავსი პასუხები.
-
დავალების წარმატების მაჩვენებელი : „მიიღო თუ არა მომხმარებელმა ის, რაც სჭირდებოდა“ ოქროს სტანდარტი, როდესაც კარგად არის განსაზღვრული.
-
შეზღუდვების დაცვა : ფორმატის, სიგრძის, JSON ვალიდურობის, სქემის დაცვის შესაბამისად.
მთავარი პუნქტი
თუ თქვენი დავალება ღიაა (წერა, მსჯელობა, დამხმარე ჩატი), ერთრიცხოვანი მეტრიკა შეიძლება იყოს... მერყევი. არა უაზრო, უბრალოდ მერყევი. კრეატიულობის სახაზავით გაზომვა შესაძლებელია, მაგრამ ამის გაკეთება სისულელედ მოგეჩვენებათ. (ასევე, ალბათ, თვალსაც ამოიღებთ.)
ასე რომ: გამოიყენეთ მეტრიკები, მაგრამ მიამაგრეთ ისინი ადამიანურ მიმოხილვას და რეალურ დავალების შედეგებს (LLM-ზე დაფუძნებული შეფასების განხილვის ერთი მაგალითი + გაფრთხილებები: G-Eval ).
6) შედარების ცხრილი - საუკეთესო შეფასების ვარიანტები (უცნაურობებით, რადგან ცხოვრებას აქვს უცნაურობები) 🧾✨
აქ მოცემულია შეფასების მიდგომების პრაქტიკული მენიუ. შეურიეთ ერთმანეთს. გუნდების უმეტესობა ასე იქცევა.
| ინსტრუმენტი / მეთოდი | აუდიტორია | ფასი | რატომ მუშაობს |
|---|---|---|---|
| ხელით შექმნილი სწრაფი ტესტების ნაკრები | პროდუქტი + ინჟინერია | $ | ძალიან მიზანმიმართულია, სწრაფად იჭერს რეგრესიებს - მაგრამ მუდმივად უნდა შეინარჩუნოთ 🙃 (საწყისი ინსტრუმენტი: OpenAI Evals ) |
| ადამიანის რუბრიკის შეფასების პანელი | გუნდები, რომლებსაც შეუძლიათ მიმომხილველების გამოყოფა | $$ | საუკეთესოა ტონის, ნიუანსის, „მიიღებდა თუ არა ამას ადამიანი“, მცირე ქაოსის გამო, რაც დამოკიდებულია რეცენზენტებზე |
| სამართლის მაგისტრი, როგორც მოსამართლე (რუბრიკებით) | სწრაფი იტერაციული ციკლები | $-$$ | სწრაფი და მასშტაბირებადი, მაგრამ შეიძლება მემკვიდრეობით მიიღოს მიკერძოება და ზოგჯერ შეაფასოს ვიბრაციები და არა ფაქტები (კვლევა + ცნობილი მიკერძოების საკითხები: G-Eval ) |
| წითელი გუნდების მოწინააღმდეგე სპრინტი | უსაფრთხოება + შესაბამისობა | $$ | აღმოაჩენს პიკანტურ წარუმატებლობის რეჟიმებს, განსაკუთრებით სწრაფ ინექციას - თავს სპორტდარბაზში სტრეს-ტესტად გრძნობს (საფრთხის მიმოხილვა: OWASP LLM01 სწრაფი ინექცია / OWASP ტოპ 10 LLM აპლიკაციებისთვის ) |
| სინთეზური ტესტის გენერირება | მონაცემთა სინათლის გუნდები | $ | შესანიშნავი გაშუქება, მაგრამ ხელოვნური მინიშნებები შეიძლება ძალიან მოწესრიგებული და თავაზიანი იყოს... მომხმარებლები არ არიან თავაზიანები |
| A/B ტესტირება რეალურ მომხმარებლებთან | ზრდასრული პროდუქტები | $$$ | ყველაზე მკაფიო სიგნალი - ასევე ყველაზე ემოციურად სტრესული, როდესაც მეტრიკა მერყეობს (კლასიკური პრაქტიკული სახელმძღვანელო: კოჰავი და სხვ., „კონტროლირებადი ექსპერიმენტები ინტერნეტში“ ) |
| მოძიებაზე დაფუძნებული შეფასება (RAG შემოწმებები) | ძიება + ხარისხის შემოწმების აპლიკაციები | $$ | ზომავს „კონტექსტის სწორად გამოყენებას“, ამცირებს ჰალუცინაციების ქულის ინფლაციას (RAG შეფასების მიმოხილვა: RAG-ის შეფასება: გამოკითხვა ) |
| მონიტორინგი + დრიფტის აღმოჩენა | წარმოების სისტემები | $$-$$$ | დროთა განმავლობაში აფიქსირებს დეგრადაციას - უნაკლოა მანამ, სანამ არ გიშველის 😬 (დრიფტის მიმოხილვა: კონცეფციის დრიფტის კვლევა (PMC) ) |
გაითვალისწინეთ, რომ ფასები განგებ არის დაბალი. ისინი დამოკიდებულია მასშტაბზე, ხელსაწყოებზე და იმაზე, თუ რამდენ შეხვედრას მართავთ შემთხვევით.
7) ადამიანური შეფასება - საიდუმლო იარაღი, რომლის გამოც ადამიანები არასაკმარისად აფინანსებენ 👀🧑⚖️
თუ მხოლოდ ავტომატურ შეფასებას განახორციელებთ, გამოგრჩებათ:
-
ტონის შეუსაბამობა („რატომ არის ასეთი ირონიული“)
-
დახვეწილი ფაქტობრივი შეცდომები, რომლებიც თავისუფლად გამოიყურება
-
მავნე შედეგები, სტერეოტიპები ან უხერხული ფრაზირება (რისკი + მიკერძოებული ჩარჩო: NIST AI RMF 1.0 )
-
ინსტრუქციის შესრულებისას ჩავარდნები, რომლებიც მაინც „ჭკვიანურად“ ჟღერს
რუბრიკები კონკრეტული გახადეთ (ან რეცენზენტები ფრისტაილს გააკეთებენ)
ცუდი რუბრიკა: „სასარგებლოობა“
უკეთესი რუბრიკა:
-
სისწორე : ფაქტობრივი სიზუსტე მინიშნებისა და კონტექსტის გათვალისწინებით
-
სისრულე : მოიცავს საჭირო პუნქტებს ზედმეტი ზედმეტად გადაჭარბების გარეშე.
-
სიცხადე : იკითხება, სტრუქტურირებული, მინიმალური დაბნეულობა
-
პოლიტიკა / უსაფრთხოება : თავს არიდებს შეზღუდულ კონტენტს, კარგად უმკლავდება უარყოფას (უსაფრთხოების ჩარჩო: NIST AI RMF 1.0 )
-
სტილი : შეესაბამება ხმას, ტონს, კითხვის დონეს
-
ერთგულება : არ იგონებს წყაროებს ან არ შეიცავს დაუსაბუთებელ მტკიცებებს
ასევე, ხანდახან შეამოწმეთ შემფასებლებს შორის. თუ ორი შემფასებელი მუდმივად არ ეთანხმება ერთმანეთს, ეს არ არის „პიროვნების პრობლემა“, ეს რუბრიკის პრობლემაა. როგორც წესი (შემფასებლებს შორის სანდოობის საფუძვლები: მაკჰიუ კოენის კაპას შესახებ ).
8) როგორ შევაფასოთ ხელოვნური ინტელექტის მოდელები უსაფრთხოების, მდგრადობისა და „უჰ, მომხმარებლებო“ თვალსაზრისით 🧯🧪
ეს არის ის ნაწილი, რომელსაც გაშვებამდე აკეთებთ - და შემდეგ აგრძელებთ ამის კეთებას, რადგან ინტერნეტი არასდროს სძინავს.
გამძლეობის ტესტები, რომლებიც მოიცავს
-
ორთოგრაფიული შეცდომები, ჟარგონი, გრამატიკის დარღვევა
-
ძალიან გრძელი და ძალიან მოკლე შეთავაზებები
-
წინააღმდეგობრივი ინსტრუქციები („იყავით მოკლე, მაგრამ მიუთითეთ ყველა დეტალი“)
-
მრავალრიგიანი საუბრები, სადაც მომხმარებლები ცვლიან მიზნებს
-
სწრაფი ინექციის მცდელობები („წინა წესების იგნორირება...“) (საფრთხის დეტალები: OWASP LLM01 სწრაფი ინექცია )
-
მგრძნობიარე თემები, რომლებიც ფრთხილად უარყოფას საჭიროებენ (რისკის/უსაფრთხოების ჩარჩო: NIST AI RMF 1.0 )
უსაფრთხოების შეფასება მხოლოდ „უარს ამბობს თუ არა“ არ არის
კარგი მოდელი უნდა:
-
უარი თქვით სახიფათო მოთხოვნებზე ნათლად და მშვიდად (სახელმძღვანელო ჩარჩო: NIST AI RMF 1.0 )
-
საჭიროების შემთხვევაში, შესთავაზეთ უფრო უსაფრთხო ალტერნატივები
-
მოერიდეთ უვნებელ შეკითხვებზე ზედმეტად უარყოფას (ცრუ დადებითი შედეგები)
-
ორაზროვანი მოთხოვნების დაზუსტებით განხილვა (როდესაც ეს დაშვებულია)
ზედმეტი უარი პროდუქტის რეალური პრობლემაა. მომხმარებლებს არ მოსწონთ, როდესაც მათ საეჭვო გობლინებივით ექცევიან. 🧌 (მაშინაც კი, თუ ისინი საეჭვო გობლინები არიან.)
9) ღირებულება, შეყოვნება და ოპერაციული რეალობა - შეფასება, რომელიც ყველას ავიწყდება 💸⏱️
მოდელი შეიძლება იყოს „გასაოცარი“ და მაინც არასწორი იყოს თქვენთვის, თუ ის ნელი, ძვირი ან ოპერატიულად მყიფეა.
შეაფასეთ:
-
ლატენტობის განაწილება (არა მხოლოდ საშუალო - p95 და p99 მნიშვნელოვანია) (რატომ არის მნიშვნელოვანი პროცენტული მაჩვენებლები: Google SRE Workbook მონიტორინგის შესახებ )
-
თითოეული წარმატებული დავალების ღირებულება (არა ცალკე ტოკენის ღირებულება)
-
სტაბილურობა დატვირთვის ქვეშ (ტაიმ-აუტები, სიჩქარის ლიმიტები, ანომალიური პიკები)
-
ინსტრუმენტის გამოძახების სანდოობა (თუ ის იყენებს ფუნქციებს, იქცევა თუ არა ის სწორად)
-
გამომავალი სიგრძის ტენდენციები (ზოგიერთი მოდელი ზედმეტად ვრცელდებოდა და ზედმეტად ვრცელდებოდა ფული)
ვარჯიშზე გამარჯვებას შეიძლება ოდნავ უარესი მოდელიც კი ახერხებდეს, რომელიც ორჯერ უფრო სწრაფია. ეს აშკარაა, მაგრამ ხალხი ამას ყურადღებას არ აქცევს. მაგალითად, როცა სასურსათო მაღაზიაში წასასვლელად სპორტულ მანქანას ყიდულობ და შემდეგ საბარგულის ტევადობაზე წუწუნებ.
10) მარტივი, სრულყოფილი სამუშაო პროცესი, რომლის კოპირებაც (და კორექტირებაც) შეგიძლიათ 🔁✅
აქ მოცემულია პრაქტიკული ინსტრუქცია, თუ როგორ შევაფასოთ ხელოვნური ინტელექტის მოდელები დაუსრულებელ ექსპერიმენტებში გაბმის გარეშე:
-
წარმატების განსაზღვრა : ამოცანა, შეზღუდვები, წარუმატებლობის ხარჯები
-
შექმენით მცირე „ძირითადი“ ტესტების ნაკრები : 50-200 მაგალითი, რომლებიც ასახავს რეალურ გამოყენებას
-
კიდისა და მოწინააღმდეგეობრივი ნაკრებების დამატება : ინექციის მცდელობები, ორაზროვანი მოთხოვნები, უსაფრთხოების ზონდები (სწრაფი ინექციის კლასი: OWASP LLM01 )
-
ავტომატური შემოწმების ჩატარება : ფორმატირება, JSON ვალიდურობა, ძირითადი სისწორე, სადაც შესაძლებელია
-
ადამიანის მიერ განხილვის გაშვება : კატეგორიების მიხედვით შედეგების ნიმუშები, ქულების შერჩევა რუბრიკის მიხედვით
-
შეადარეთ კომპრომისები : ხარისხი vs ფასი vs შეყოვნება vs უსაფრთხოება
-
პილოტური პროექტი შეზღუდული გამოშვებით : A/B ტესტები ან ეტაპობრივი დანერგვა (A/B ტესტირების სახელმძღვანელო: კოჰავი და სხვ. )
-
მონიტორი წარმოებაში : დრიფტი, რეგრესიები, მომხმარებლის უკუკავშირის მარყუჟები (დრიფტის მიმოხილვა: კონცეფციის დრიფტის კვლევა (PMC) )
-
იტერაცია : განახლების მოთხოვნები, აღდგენა, დახვეწა, დამცავი ბარიერები, შემდეგ შეფასების ხელახლა გაშვება (შეფასების იტერაციის შაბლონები: OpenAI შეფასების სახელმძღვანელო )
შეინახეთ ვერსიების ჟურნალები. არა იმიტომ, რომ ეს სახალისოა, არამედ იმიტომ, რომ მომავალში - მადლობას გეტყვით, ხელში ყავა გეჭიროთ და ბუტბუტებთ „რა შეიცვალა...“ ☕🙂
11) გავრცელებული ხაფანგები (ანუ: გზები, რომლითაც ადამიანები შემთხვევით თავს იტყუებენ) 🪤
-
ტესტისთვის ტრენინგი : თქვენ ოპტიმიზაციას უკეთებთ მოთხოვნებს მანამ, სანამ საორიენტაციო მაჩვენებელი შესანიშნავად არ გამოიყურება, მაგრამ მომხმარებლები ზარალდებიან.
-
შეფასების გაჟონილი მონაცემები : ტესტის მოთხოვნები ჩნდება ტრენინგის ან დახვეწის მონაცემებში (უი)
-
ერთი მეტრიკის თაყვანისცემა : ერთი ქულის დევნა, რომელიც არ ასახავს მომხმარებლის ღირებულებას
-
განაწილების ცვლილების იგნორირება : მომხმარებლის ქცევა იცვლება და თქვენი მოდელი ჩუმად დეგრადირდება (წარმოების რისკის ჩარჩო: კონცეფციის დრიფტის კვლევა (PMC) )
-
„ჭკვიანურობის“ გადაჭარბებული ინდექსირება : ჭკვიანურ მსჯელობას მნიშვნელობა არ აქვს, ფორმატირებას არღვევს თუ ფაქტებს იგონებს.
-
უარყოფის ხარისხის ტესტირება არ ხდება : „არა“ შეიძლება სწორი იყოს, მაგრამ მაინც საშინელი მომხმარებლის გამოცდილება აქვს.
ასევე, ფრთხილად იყავით დემოებთან. დემოები ფილმის თრეილერებს ჰგავს. ისინი აჩვენებენ მნიშვნელოვან მომენტებს, მალავენ ნელ ნაწილებს და ზოგჯერ დრამატულ მუსიკასთან ერთად ტყუილსაც ავრცელებენ. 🎬
12) ხელოვნური ინტელექტის მოდელების შეფასების დასკვნითი შეჯამება 🧠✨
ხელოვნური ინტელექტის მოდელების შეფასება ერთი ქულით არ შემოიფარგლება, ეს დაბალანსებული კვებაა. გჭირდებათ ცილა (სისწორე), ბოსტნეული (უსაფრთხოება), ნახშირწყლები (სიჩქარე და ღირებულება) და კი, ზოგჯერ დესერტი (გემო და სიამოვნება) 🍲🍰 (რისკის ჩარჩო: NIST AI RMF 1.0 )
თუ სხვა არაფერი გახსოვს:
-
განსაზღვრეთ, რას ნიშნავს „კარგი“ თქვენი გამოყენების შემთხვევისთვის
-
გამოიყენეთ წარმომადგენლობითი ტესტების ნაკრები და არა მხოლოდ ცნობილი საორიენტაციო მაჩვენებლები
-
გააერთიანეთ ავტომატიზირებული მეტრიკები ადამიანის რუბრიკის მიმოხილვასთან
-
ტესტის სიმტკიცე და უსაფრთხოება მომხმარებლების მსგავსად მოწინააღმდეგეა (რადგან ზოგჯერ... ისინი არიან) (სწრაფი ინექციის კლასი: OWASP LLM01 )
-
შეფასებაში ჩართეთ ღირებულება და შეყოვნება და არა როგორც დამატებითი აზრი (რატომ არის მნიშვნელოვანი პროცენტული მაჩვენებლები: Google SRE Workbook )
-
გაშვების შემდგომი მონიტორინგი - მოდელები იცვლება, აპლიკაციები ვითარდება, ადამიანები კრეატიულები ხდებიან (დრიფტის მიმოხილვა: კონცეფციის დრიფტის კვლევა (PMC) )
აი, როგორ უნდა შეაფასოთ ხელოვნური ინტელექტის მოდელები ისე, რომ ეს გამართლდეს, როდესაც თქვენი პროდუქტი აქტიურია და ადამიანები არაპროგნოზირებად ქმედებებს იწყებენ. რაც ყოველთვის ასეა. 🙂
ხშირად დასმული კითხვები
რა არის პირველი ნაბიჯი რეალური პროდუქტის ხელოვნური ინტელექტის მოდელების შესაფასებლად?
დაიწყეთ იმის განსაზღვრით, თუ რას ნიშნავს „კარგი“ თქვენი კონკრეტული შემთხვევისთვის. დააკონკრეტეთ მომხმარებლის მიზანი, რა დაგიჯდებათ წარუმატებლობა (დაბალი ფსონების მქონე vs მაღალი ფსონების მქონე) და სად იმუშავებს მოდელი (ღრუბელი, მოწყობილობაზე, რეგულირებად გარემოში). შემდეგ ჩამოთვალეთ მკაცრი შეზღუდვები, როგორიცაა შეყოვნება, ღირებულება, კონფიდენციალურობა და ტონის კონტროლი. ამ საფუძვლის გარეშე, ბევრს გაზომავთ და მაინც არასწორ გადაწყვეტილებას მიიღებთ.
როგორ შევქმნა ტესტების ნაკრები, რომელიც ნამდვილად ასახავს ჩემს მომხმარებლებს?
შექმენით ტესტების ნაკრები, რომელიც ნამდვილად თქვენი იქნება და არა მხოლოდ საჯარო საორიენტაციო ნიშანი. ჩართეთ შესანიშნავი მაგალითები, რომლებსაც სიამაყით წარმოადგენდით, ასევე ხმაურიანი, უჩვეულო მოთხოვნები შეცდომებით, ნახევრად წინადადებებითა და ორაზროვანი მოთხოვნებით. დაამატეთ უკიდურესი შემთხვევები და წარუმატებლობის რეჟიმის ზონდები, რომლებიც ჰალუცინაციებს ან სახიფათო პასუხებს იწვევს. გააშუქეთ უნარების დონის, დიალექტების, ენებისა და დარგების მრავალფეროვნება, რათა შედეგები წარმოების პროცესში არ დაიშალოს.
რომელი მეტრიკები უნდა გამოვიყენო და რომელი შეიძლება იყოს შეცდომაში შემყვანი?
შეუსაბამეთ მეტრიკები დავალების ტიპს. ზუსტი შესაბამისობა და სიზუსტე კარგად მუშაობს ამოღებისა და სტრუქტურირებული გამომავალი მონაცემების მისაღებად, ხოლო სიზუსტე/გახსენება და F1 დაგეხმარებათ, როდესაც რაღაცის გამოტოვება ზედმეტ ხმაურზე უარესია. გადაფარვის მეტრიკებმა, როგორიცაა BLEU/ROUGE, შეიძლება შეცდომაში შეიყვანოთ ღია დავალებებისთვის, ხოლო მსგავსების ჩასმამ შეიძლება დააჯილდოოს „არასწორი, მაგრამ მსგავსი“ პასუხები. წერის, მხარდაჭერის ან მსჯელობისთვის, შეუთავსეთ მეტრიკები ადამიანის მიერ განხილვას და დავალების წარმატების მაჩვენებლებს.
როგორ უნდა დავალაგო შეფასებები ისე, რომ ისინი იყოს განმეორებადი და პროდუქტიულობის დონის?
შეფასების მყარი ჩარჩო განმეორებადი, წარმომადგენლობითი, მრავალშრიანი და ქმედითია. შეუთავსეთ ავტომატიზირებული შემოწმებები (ფორმატი, JSON ვალიდურობა, ძირითადი სისწორე) ადამიანური რუბრიკის შეფასებასთან და შეჯიბრებით ტესტებთან. გახადეთ ის დაცული გაჟონვის თავიდან აცილებით და „ტესტის სწავლებით“. გაითვალისწინეთ შეფასების ღირებულება, რათა შეძლოთ მისი ხშირად გამეორება და არა მხოლოდ ერთხელ გაშვებამდე.
როგორ შევაფასოთ ადამიანის მდგომარეობა ქაოსში გადაზრდის გარეშე, საუკეთესო გზაა?
გამოიყენეთ კონკრეტული რუბრიკა, რათა შემფასებლებმა არ გადაწყვიტონ ფრისტილი. შეაფასეთ ისეთი ატრიბუტები, როგორიცაა სისწორე, სისრულე, სიცხადე, უსაფრთხოების/პოლიტიკის დაცვა, სტილის/ხმის შესაბამისობა და ერთგულება (მტკიცებულებების ან წყაროების გამოგონების გარეშე). პერიოდულად შეამოწმეთ შემფასებლებს შორის შეთანხმება; თუ შემფასებლები მუდმივად არ ეთანხმებიან ერთმანეთს, რუბრიკას, სავარაუდოდ, დახვეწა სჭირდება. ადამიანური მიმოხილვა განსაკუთრებით ღირებულია ტონის შეუსაბამობის, ფაქტობრივი შეცდომების და ინსტრუქციის შესრულებისას ჩავარდნების შემთხვევაში.
როგორ შევაფასო უსაფრთხოება, მდგრადობა და სწრაფი ინექციის რისკები?
ტესტირება ჩაატარეთ „უჰ, მომხმარებლებო“ შეყვანის გამოყენებით: ბეჭდვითი შეცდომები, ჟარგონი, წინააღმდეგობრივი ინსტრუქციები, ძალიან გრძელი ან ძალიან მოკლე მოთხოვნები და მიზნის მრავალრიგიანი ცვლილებები. ჩართეთ ისეთი მცდელობები, როგორიცაა „წინა წესების იგნორირება“ და მგრძნობიარე თემები, რომლებიც ფრთხილად უარყოფას მოითხოვს. უსაფრთხოების კარგი შესრულება მხოლოდ უარის თქმა არ არის - ეს არის მკაფიო უარის თქმა, უფრო უსაფრთხო ალტერნატივების შეთავაზება საჭიროების შემთხვევაში და უვნებელი შეკითხვების ზედმეტად უარყოფის თავიდან აცილება, რაც აზიანებს მომხმარებლის გამოცდილებას.
როგორ შევაფასო ღირებულება და შეყოვნება ისე, რომ რეალობას შეესაბამებოდეს?
ნუ გაზომავთ მხოლოდ საშუალო მაჩვენებლებს - თვალყური ადევნეთ შეყოვნების განაწილებას, განსაკუთრებით p95 და p99. შეაფასეთ თითოეული წარმატებული დავალების ღირებულება და არა ცალკე ტოკენის ღირებულება, რადგან განმეორებითმა მცდელობებმა და არასტაბილურმა გამომავალმა მონაცემებმა შეიძლება დაზოგილი თანხა შეამციროს. შეამოწმეთ სტაბილურობა დატვირთვის ქვეშ (ტაიმ-აუტები, სიჩქარის ლიმიტები, პიკები) და ინსტრუმენტის/ფუნქციის გამოძახების სანდოობა. ოდნავ უარესი მოდელი, რომელიც ორჯერ უფრო სწრაფი ან უფრო სტაბილურია, შეიძლება იყოს უკეთესი პროდუქტის არჩევანი.
როგორია მარტივი, ყოვლისმომცველი სამუშაო პროცესი ხელოვნური ინტელექტის მოდელების შესაფასებლად?
განსაზღვრეთ წარმატების კრიტერიუმები და შეზღუდვები, შემდეგ შექმენით მცირე ძირითადი ტესტების ნაკრები (დაახლოებით 50–200 მაგალითი), რომელიც ასახავს რეალურ გამოყენებას. დაამატეთ უპირატესობებისა და შემაფერხებელი ფაქტორების ნაკრები უსაფრთხოებისა და ინექციის მცდელობებისთვის. ჩაატარეთ ავტომატური შემოწმებები, შემდეგ კი აიღეთ ნიმუშები შედეგების ადამიანური რუბრიკის შეფასებისთვის. შეადარეთ ხარისხი ღირებულებას, შეყოვნებას უსაფრთხოებასთან, ჩაატარეთ პილოტირება შეზღუდული დანერგვით ან A/B ტესტით და აკონტროლეთ წარმოების პროცესში დრიფტი და რეგრესიები.
რა არის ყველაზე გავრცელებული გზები, რომლითაც გუნდები შემთხვევით ატყუებენ საკუთარ თავს მოდელის შეფასებისას?
გავრცელებული ხაფანგებია მოთხოვნების ოპტიმიზაცია საორიენტაციო კრიტერიუმების წარმატებით დასაკმაყოფილებლად, მაშინ როცა მომხმარებლები ზარალდებიან, შეფასების მოთხოვნების გაჟონვა ტრენინგის ან დახვეწის მონაცემებში და ერთი მეტრიკის თაყვანისცემა, რომელიც არ ასახავს მომხმარებლის ღირებულებას. გუნდები ასევე უგულებელყოფენ განაწილების ცვლილებას, ფორმატის შესაბამისობისა და სიზუსტის ნაცვლად „ჭკვიანურობის“ ინდექსირებას ზედმეტად აფასებენ და უარყოფენ უარის ხარისხის ტესტირებას. დემო ვერსიებს შეუძლიათ ამ პრობლემების დამალვა, ამიტომ დაეყრდენით სტრუქტურირებულ შეფასებებს და არა გამორჩეულ კადრებს.
ცნობები
-
OpenAI - OpenAI-ის შეფასების სახელმძღვანელო - platform.openai.com
-
სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტი (NIST) - ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (GitHub-ის საცავი) - github.com
-
scikit-learn - precision_recall_fscore_support - scikit-learn.org
-
გამოთვლითი ლინგვისტიკის ასოციაცია (ACL ანთოლოგია) - BLEU - aclanthology.org
-
გამოთვლითი ლინგვისტიკის ასოციაცია (ACL ანთოლოგია) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: სწრაფი ინექცია - owasp.org
-
OWASP - OWASP-ის ტოპ 10 დიდი ენობრივი მოდელის აპლიკაციებისთვის - owasp.org
-
სტენფორდის უნივერსიტეტი - კოჰავი და სხვ., „კონტროლირებადი ექსპერიმენტები ინტერნეტში“ - stanford.edu
-
arXiv - RAG-ის შეფასება: გამოკითხვა - arxiv.org
-
PubMed Central (PMC) - კონცეფციის დრიფტის კვლევა (PMC) - nih.gov
-
PubMed Central (PMC) - მაკჰიუ კოენის კაპას შესახებ - nih.gov
-
Google - SRE სამუშაო წიგნი მონიტორინგის შესახებ - google.workbook