როგორ გამოვცადოთ ხელოვნური ინტელექტის მოდელები

მოკლე პასუხი: ხელოვნური ინტელექტის მოდელების კარგად შესაფასებლად, დაიწყეთ იმის განსაზღვრით, თუ როგორ გამოიყურება „კარგი“ რეალური მომხმარებლისთვის და მიღებული გადაწყვეტილებისთვის. შემდეგ შექმენით განმეორებადი შეფასებები წარმომადგენლობითი მონაცემებით, გაჟონვის მკაცრი კონტროლით და მრავალი მეტრიკით. დაამატეთ სტრესის, მიკერძოებისა და უსაფრთხოების შემოწმებები და როდესაც რამე შეიცვლება (მონაცემები, მოთხოვნები, პოლიტიკა), ხელახლა გაუშვით აღკაზმულობა და განაგრძეთ მონიტორინგი გაშვების შემდეგ.

ძირითადი დასკვნები:

წარმატების კრიტერიუმები : მეტრიკების არჩევამდე განსაზღვრეთ მომხმარებლები, გადაწყვეტილებები, შეზღუდვები და ყველაზე უარესი შემთხვევების წარუმატებლობები.

განმეორებადობა : შექმენით შეფასების სისტემა, რომელიც ყოველი ცვლილებისას გაიმეორებს მსგავს ტესტებს.

მონაცემთა ჰიგიენა : შეინარჩუნეთ სტაბილური გაყოფები, თავიდან აიცილეთ დუბლიკატები და ადრეულ ეტაპზევე დაბლოკეთ ფუნქციების გაჟონვა.

ნდობის შემოწმებები : სტრეს-ტესტის სიმტკიცე, სამართლიანობის ნაჭრები და LLM-ის უსაფრთხოების ქცევები მკაფიო რუბრიკებით.

სასიცოცხლო ციკლის დისციპლინა : ეტაპობრივად დანერგვა, გადახრებისა და ინციდენტების მონიტორინგი და ცნობილი ხარვეზების დოკუმენტირება.

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:

🔗 რა არის ხელოვნური ინტელექტის ეთიკა?
შეისწავლეთ პასუხისმგებლიანი ხელოვნური ინტელექტის დიზაინის, გამოყენებისა და მმართველობის პრინციპები.

🔗 რა არის ხელოვნური ინტელექტის მიკერძოება?
გაიგეთ, თუ როგორ ამახინჯებს მიკერძოებული მონაცემები ხელოვნური ინტელექტის გადაწყვეტილებებსა და შედეგებს.

🔗 რა არის ხელოვნური ინტელექტის მასშტაბირება?
გაიგეთ ხელოვნური ინტელექტის სისტემების მასშტაბირება შესრულების, ღირებულებისა და საიმედოობის მიხედვით.

🔗 რა არის ხელოვნური ინტელექტი?
ხელოვნური ინტელექტის, ტიპებისა და რეალურ სამყაროში გამოყენების მკაფიო მიმოხილვა.

1) დაიწყეთ „კარგის“ არასერიოზული განმარტებით

მეტრიკამდე, დაფამდე, ნებისმიერ საორიენტაციო ნიშნულამდე - გადაწყვიტეთ, როგორი იქნება წარმატება.

დააზუსტეთ:

მომხმარებელი: შიდა ანალიტიკოსი, მომხმარებელი, კლინიცისტი, მძღოლი, დაღლილი დამხმარე აგენტი 16:00 საათზე…
გადაწყვეტილება: სესხის დამტკიცება, თაღლითობის აღნიშვნა, შინაარსის შეთავაზება, შენიშვნების შეჯამება, შენიშვნების შეჯამება.
ყველაზე მნიშვნელოვანი წარუმატებლობები:
- ცრუ დადებითი (შემაწუხებელი) vs ცრუ უარყოფითი (საშიში)
შეზღუდვები: შეყოვნება, მოთხოვნის ღირებულება, კონფიდენციალურობის წესები, ახსნის მოთხოვნები, ხელმისაწვდომობა

ეს ის ნაწილია, როდესაც გუნდები „მნიშვნელოვანი შედეგის“ ნაცვლად „საკმაოდ კარგი მეტრიკის“ ოპტიმიზაციაზე გადადიან. ეს ხშირად ხდება. მაგალითად... ხშირად.

რისკისადმი ცნობიერების (და არა ვიბრაციების) შენარჩუნების ერთ-ერთი საიმედო გზაა ტესტირების სანდოობისა და სასიცოცხლო ციკლის რისკების მართვის ირგვლივ ჩამოყალიბება, როგორც ამას NIST აკეთებს ხელოვნური ინტელექტის რისკების მართვის ჩარჩოში (AI RMF 1.0) [1].

ხელოვნური ინტელექტის მოდელების ტესტირება

2) რა ხდის „როგორ გამოვცადოთ ხელოვნური ინტელექტის მოდელები“-ს კარგ ვერსიას ✅

მყარი ტესტირების მიდგომას რამდენიმე უდავო უპირატესობა აქვს:

წარმომადგენლობითი მონაცემები (არა მხოლოდ სუფთა ლაბორატორიული მონაცემები)
გასუფთავებული ნაპრალები (ამაზე მოგვიანებით)
საბაზისო ხაზები (მარტივი მოდელები, რომლებიც უნდა დაძლიოთ - ყალბი შემფასებლები არსებობს გარკვეული მიზეზის გამო [4])
მრავალი მეტრიკა (რადგან ერთი რიცხვი გიტყუებთ, თავაზიანად, პირში)
სტრეს-ტესტები (უკანასკნელი შემთხვევები, უჩვეულო შეყვანები, დაპირისპირების მსგავსი სცენარები)
ადამიანის მიმოხილვის ციკლები (განსაკუთრებით გენერაციული მოდელებისთვის)
გაშვების შემდგომი მონიტორინგი (რადგან სამყარო იცვლება, მილსადენები წყდება და მომხმარებლები... კრეატიულები არიან [1])

ასევე: კარგი მიდგომა გულისხმობს იმის დოკუმენტირებას, თუ რა გამოსცადეთ, რა არ გამოსცადეთ და რაზე ნერვიულობთ. „რაზე ვნერვიულობ“ განყოფილება უხერხულად ჟღერს - და სწორედ აქ იწყება ნდობის დაგროვება.

ორი დოკუმენტაციის ნიმუში, რომელიც მუდმივად ეხმარება გუნდებს გულწრფელობის შენარჩუნებაში:

მოდელის ბარათები (რისთვის არის მოდელი, როგორ შეფასდა, სად არის წარუმატებელი) [2]
მონაცემთა ნაკრებების მონაცემთა ცხრილები (რა არის მონაცემები, როგორ შეგროვდა, რისთვის უნდა/არ უნდა იქნას გამოყენებული) [3]

3) ინსტრუმენტული რეალობა: რას იყენებენ ადამიანები პრაქტიკაში 🧰

ინსტრუმენტები არჩევითია. კარგი შეფასების ჩვევები - არა.

თუ პრაგმატული კონფიგურაცია გსურთ, გუნდების უმეტესობას სამი ვარიანტი აქვს:

ექსპერიმენტის თვალყურის დევნება (გაშვების, კონფიგურაციების, არტეფაქტების)
შეფასების აღკაზმულობა (განმეორებადი ოფლაინ ტესტები + რეგრესიული კომპლექტები)
მონიტორინგი (დრეიფტის მსგავსი სიგნალები, შესრულების პროქსიები, ინციდენტების შეტყობინებები)

მაგალითები, რომლებსაც ხშირად ნახავთ (არა მოწონებებს და დიახ - ფუნქციების/ფასების ცვლილებას): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.

ამ სექციიდან იდეას აირჩევთ შექმენით განმეორებადი შეფასების სისტემა . თქვენ გსურთ „დააჭიროთ ღილაკს → მიიღოთ შედარებადი შედეგები“ და არა „გადატვირთოთ რვეული და ილოცოთ“.

4) შექმენით სწორი სატესტო ნაკრები (და შეაჩერეთ მონაცემების გაჟონვა) 🚧

შოკისმომგვრელია, რომ „გასაოცარი“ მოდელების რაოდენობა შემთხვევით ატყუებენ.

სტანდარტული ML-ისთვის

რამდენიმე არასექსუალური წესი, რომელიც კარიერას გიშველის:

შეინარჩუნეთ მატარებლის/ვალიდაციის/ტესტის გაყოფები სტაბილური (და ჩაწერეთ გაყოფის ლოგიკა)
თავიდან აცილება გაყოფებს შორის (იგივე მომხმარებელი, იგივე დოკუმენტი, იგივე პროდუქტი, თითქმის დუბლიკატები)
დააკვირდით ფუნქციების გაჟონვას (მომავალი ინფორმაცია „მიმდინარე“ ფუნქციებში შეღწევას)
გამოიყენეთ საბაზისო ხაზები (ფიქტიური შემფასებლები), რათა არ იზეიმოთ გამარჯვება... არაფერი [4]

გაჟონვის განმარტება (სწრაფი ვერსია): ტრენინგის/შეფასების დროს ნებისმიერი რამ, რაც მოდელს აძლევს წვდომას ინფორმაციაზე, რომელიც მას არ ექნებოდა გადაწყვეტილების მიღების დროს. ეს შეიძლება იყოს აშკარა („მომავლის ეტიკეტი“) ან შეუმჩნეველი („მოვლენის შემდგომი დროის ნიშნულის ვედრო“).

LLM-ებისა და გენერაციული მოდელებისთვის

თქვენ ქმნით სწრაფი რეაგირებისა და პოლიტიკის სისტემას და არა მხოლოდ „მოდელს“.

შექმენით ოქროსფერი მინიშნებების ნაკრები (პატარა, მაღალი ხარისხის, სტაბილური)
დაამატეთ უახლესი რეალური ნიმუშები (ანონიმური + კონფიდენციალურობისთვის უსაფრთხო)
შეინარჩუნეთ რეგისტრის ფორმატირება : ბეჭდვითი შეცდომები, ჟარგონი, არასტანდარტული ფორმატირება, ცარიელი შეყვანები, მრავალენოვანი სიურპრიზები 🌍

პრაქტიკული რამ, რაც არაერთხელ მინახავს: გუნდი „ძლიერი“ ოფლაინ ქულით ამთავრებს თამაშს, შემდეგ კი მომხმარებელთა მხარდაჭერის სამსახური ამბობს: „მაგარია. ის თავდაჯერებულად უშვებს ერთ მნიშვნელოვან წინადადებას“. გამოსწორება „უფრო დიდი მოდელი“ არ იყო. ეს იყო უკეთესი ტესტის მოთხოვნები , უფრო მკაფიო რუბრიკები და რეგრესიული ნაკრები, რომელიც ზუსტად ამ წარუმატებლობის რეჟიმს სჯიდა. მარტივი. ეფექტური.

5) ოფლაინ შეფასება: მნიშვნელოვანი მეტრიკები 📏

მეტრიკა კარგია. მეტრული მონოკულტურა - არა.

კლასიფიკაცია (სპამი, თაღლითობა, განზრახვა, ტრიაჟი)

გამოიყენეთ სიზუსტეზე მეტი.

სიზუსტე, გახსენება, F1
ზღვრის რეგულირება (თქვენი ნაგულისხმევი ზღვარი იშვიათად არის „სწორი“ თქვენი ხარჯებისთვის) [4]
დაბნეულობის მატრიცები სეგმენტის მიხედვით (რეგიონი, მოწყობილობის ტიპი, მომხმარებლის კოჰორტა)

რეგრესია (პროგნოზირება, ფასწარმოქმნა, ქულების დადგენა)

MAE / RMSE (აირჩიეთ იმის მიხედვით, თუ როგორ გსურთ შეცდომების დასჯა)
კალიბრაციის მსგავსი შემოწმებები, როდესაც გამომავალი მონაცემები გამოიყენება როგორც „ქულები“ (შეესაბამება თუ არა ქულები რეალობას?)

რეიტინგის/რეკომენდაციის სისტემები

NDCG, MAP, MRR
დაყოფა მოთხოვნის ტიპის მიხედვით (თავი vs კუდი)

კომპიუტერული ხედვა

mAP, IoU
კლასების მიხედვით შესრულება (იშვიათ კლასებში მოდელები უხერხულ მდგომარეობაში გაყენებენ)

გენერაციული მოდელები (LLM)

აი, სად იწყებენ ადამიანები… ფილოსოფიას 😵💫

პრაქტიკული ვარიანტები, რომლებიც რეალურ გუნდებში მუშაობს:

ადამიანის შეფასება (საუკეთესო სიგნალი, ყველაზე ნელი ციკლი)
წყვილური უპირატესობა / მოგების მაჩვენებელი (A vs B უფრო ადვილია, ვიდრე აბსოლუტური ქულა)
ავტომატური ტექსტური მეტრიკა (სასარგებლოა ზოგიერთი ამოცანისთვის, შეცდომაში შემყვანია სხვებისთვის)
დავალებებზე დაფუძნებული შემოწმებები: „ამოიღო თუ არა სწორი ველები?“ „დაიცვა თუ არა პოლიტიკა?“ „მოიყვანა თუ არა წყაროები საჭიროების შემთხვევაში?“

თუ გსურთ სტრუქტურირებული „მულტიმეტრიული, მრავალი სცენარის“ საცნობარო წერტილი, HELM კარგი საყრდენია: ის შეფასებას სიზუსტის მიღმა ისეთ საკითხებზე გადააქვს, როგორიცაა კალიბრაცია, სიმტკიცე, მიკერძოება/ტოქსიკურობა და ეფექტურობის კომპრომისები [5].

მცირე გადახვევა: წერის ხარისხის ავტომატიზირებული მეტრიკა ზოგჯერ სენდვიჩის აწონვით შეფასებას ჰგავს. ეს არაფერია, მაგრამ... კარგით 🥪

6) გამძლეობის ტესტირება: ცოტა ოფლი დაამუშავეთ 🥵🧪

თუ თქვენი მოდელი მხოლოდ მოწესრიგებულ შეყვანებზე მუშაობს, ის ძირითადად შუშის ვაზაა. ლამაზი, მყიფე და ძვირი.

ტესტი:

ხმაური: ბეჭდვის შეცდომები, დაკარგული მნიშვნელობები, არასტანდარტული უნიკოდი, ფორმატირების ხარვეზები
დისტრიბუციის ცვლილება: ახალი პროდუქტის კატეგორიები, ახალი ჟარგონი, ახალი სენსორები
ექსტრემალური მნიშვნელობები: დიაპაზონს მიღმა რიცხვები, გიგანტური დატვირთვები, ცარიელი სტრიქონები
„შეწინააღმდეგების მსგავსი“ შეყვანები, რომლებიც არ ჰგავს თქვენს სასწავლო ნაკრებს, მაგრამ მომხმარებლების შთაბეჭდილებას ტოვებს

LLM-ებისთვის, მოიცავს:

სწრაფი ინექციის მცდელობები (ინსტრუქციები დამალულია მომხმარებლის კონტენტში)
„წინა ინსტრუქციების იგნორირების“ ნიმუშები
ინსტრუმენტის გამოყენების უპირატესი შემთხვევები (არასწორი URL-ები, ვადის ამოწურვა, ნაწილობრივი გამომავალი)

სიმტკიცე ერთ-ერთი იმ სანდო თვისებათაგანია, რომელიც აბსტრაქტულად ჟღერს მანამ, სანამ ინციდენტები არ მოხდება. შემდეგ ის... ძალიან ხელშესახები ხდება [1].

7) მიკერძოება, სამართლიანობა და ვისთვის მუშაობს ის ⚖️

მოდელი შეიძლება იყოს „ზუსტი“ ზოგადად, მაგრამ კონკრეტული ჯგუფებისთვის მუდმივად უარესი. ეს არ არის პატარა შეცდომა. ეს არის პროდუქტისა და ნდობის პრობლემა.

პრაქტიკული ნაბიჯები:

შესრულების შეფასება მნიშვნელოვანი სეგმენტების (გაზომვის იურიდიულად/ეთიკურად მიზანშეწონილი)
შეადარეთ შეცდომების მაჩვენებლები და კალიბრაცია ჯგუფებს შორის
პროქსი ფუნქციების (საფოსტო ინდექსი, მოწყობილობის ტიპი, ენა) ტესტირება, რომლებსაც შეუძლიათ მგრძნობიარე მახასიათებლების კოდირება

თუ ამას სადმე არ ადოკუმენტირებთ, ფაქტობრივად, მომავალს სთხოვთ, ნდობის კრიზისი რუკის გარეშე გამართოს. მოდელის ბარათები ამის განსათავსებლად მყარი ადგილია [2], ხოლო NIST-ის სანდოობის ჩარჩო გთავაზობთ მყარ საკონტროლო სიას იმის შესახებ, თუ რა უნდა მოიცავდეს „კარგს“ [1].

8) უსაფრთხოების ტესტირება (განსაკუთრებით LLM-ებისთვის) 🛡️

თუ თქვენს მოდელს შეუძლია კონტენტის გენერირება, თქვენ სიზუსტეზე მეტს ამოწმებთ. თქვენ ქცევას ამოწმებთ.

ჩართეთ ტესტები:

კონტენტის გენერირება აკრძალულია (პოლიტიკის დარღვევები)
კონფიდენციალურობის გაჟონვა (აშკარავებს თუ არა ეს საიდუმლოებებს?)
ჰალუცინაციები მაღალი რისკის დომენებში
ზედმეტი უარი (მოდელი უარყოფს ჩვეულებრივ მოთხოვნებს)
ტოქსიკურობისა და შევიწროების შედეგები
მონაცემთა ექსფილტრაციის მცდელობები სწრაფი ინექციის საშუალებით

დასაბუთებული მიდგომაა: პოლიტიკის წესების განსაზღვრა → ტესტის მოთხოვნების შექმნა → შედეგების შეფასება ადამიანური + ავტომატური შემოწმებებით → მისი გაშვება ყოველ ჯერზე, როდესაც რაიმე შეიცვლება. ეს „ყოველ ჯერზე“ ნაწილი ქირაა.

ეს იდეალურად ჯდება სასიცოცხლო ციკლის რისკის აზროვნებაში: მართვა, კონტექსტის რუკა, გაზომვა, მართვა, გამეორება [1].

9) ონლაინ ტესტირება: ეტაპობრივი დანერგვა (სადაც სიმართლე ცხოვრობს) 🚀

ოფლაინ ტესტები აუცილებელია. ონლაინ ექსპოზიცია არის ის, სადაც რეალობა ტალახიანი ფეხსაცმლით ვლინდება.

არ არის აუცილებელი იყოთ ელეგანტურები. უბრალოდ დისციპლინირებული უნდა იყოთ:

ჩრდილის რეჟიმში გაშვება (მოდელი მუშაობს, მომხმარებლებზე გავლენას არ ახდენს)
თანდათანობითი დანერგვა (ჯერ მცირე ტრაფიკი, შემდეგ გაფართოება, თუ ტრაფიკი წარმატებული იქნება)
შედეგებისა და ინციდენტების (საჩივრების, ესკალაციის, პოლიტიკის ჩავარდნების)

მაშინაც კი, თუ ვერ მიიღებთ დაუყოვნებლივ ეტიკეტებს, შეგიძლიათ აკონტროლოთ პროქსი სიგნალები და ოპერაციული მდგომარეობა (შეყოვნება, წარუმატებლობის მაჩვენებლები, ღირებულება). მთავარი საკითხი: თქვენ გსურთ კონტროლირებადი გზა წარუმატებლობის აღმოსაჩენად, სანამ ამას თქვენი მთელი მომხმარებლის ბაზა გააკეთებს [1].

10) მონიტორინგი განლაგების შემდეგ: დრიფტი, დაშლა და ჩუმი უკმარისობა 📉👀

თქვენს მიერ გამოსაცდელი მოდელი არ არის ის მოდელი, რომლითაც საბოლოოდ ცხოვრობთ. მონაცემები იცვლება. მომხმარებლები იცვლებიან. სამყარო იცვლება. მილსადენი წყდება დილის 2 საათზე. იცით, როგორ არის საქმე..

მონიტორი:

შეყვანის მონაცემების დრიფტი (სქემის ცვლილებები, არარსებობა, განაწილების ცვლილებები)
გამომავალი დრიფტი (კლასობრივი ბალანსის ცვლილებები, ქულების ცვლილებები)
შესრულების პროქსიები (რადგან ეტიკეტების შეფერხებები რეალურია)
უკუკავშირის სიგნალები (დაწუნებული ცერი, ხელახალი რედაქტირება, ესკალაცია)
სეგმენტის დონის რეგრესიები (ჩუმი მკვლელები)

დააყენეთ განგაშის ზღურბლები, რომლებიც ძალიან არ ირხევა. მონიტორი, რომელიც მუდმივად ყვირის, იგნორირებულია - როგორც ქალაქში მანქანის სიგნალიზაცია.

ეს „დროთა განმავლობაში მონიტორინგი + გაუმჯობესება“ ციკლი არ არის არჩევითი, თუ სანდოობა გაინტერესებთ [1].

11) პრაქტიკული სამუშაო პროცესი, რომლის კოპირებაც შეგიძლიათ 🧩

აქ არის მარტივი ციკლი, რომელიც მასშტაბირდება:

წარმატების + წარუმატებლობის რეჟიმების განსაზღვრა (ღირებულების/შეყოვნების/უსაფრთხოების ჩათვლით) [1]
მონაცემთა ნაკრებების შექმნა:
- ოქროს კომპლექტი
- კიდეზე გადასაკრავი პაკეტი
- უახლესი რეალური ნიმუშები (კონფიდენციალურობის დაცვით)
აირჩიეთ მეტრიკები:
- დავალების მეტრიკა (F1, MAE, მოგების მაჩვენებელი) [4][5]
- უსაფრთხოების მაჩვენებლები (პოლიტიკის გავლის მაჩვენებელი) [1][5]
- ოპერაციული მეტრიკები (შეყოვნება, ღირებულება)
შეფასების აღკაზმულობის აწყობა (მუშაობს ყველა მოდელზე/მოთხოვნის ცვლილებაზე) [4][5]
დაამატეთ სტრეს-ტესტები + შეჯიბრებითი ტესტები [1][5]
ნიმუშის ადამიანური მიმოხილვა (განსაკუთრებით LLM-ის შედეგებისთვის) [5]
გაგზავნა ჩრდილის საშუალებით + ეტაპობრივი გაშვება [1]
მონიტორინგი + გაფრთხილება + დისციპლინირებული გადამზადება [1]
დოკუმენტის შედეგები მოდელის ბარათის სტილის ჩანაწერია [2][3]

ტრენინგი მომხიბვლელია. ტესტირება კი - ანაზღაურებადი.

12) დასკვნითი შენიშვნები + მოკლე მიმოხილვა 🧠✨

თუ მხოლოდ რამდენიმე რამ გახსოვთ ხელოვნური ინტელექტის მოდელების ტესტირების :

გამოიყენეთ წარმომადგენლობითი ტესტის მონაცემები და თავიდან აიცილეთ გაჟონვა [4]
აირჩიეთ რეალურ შედეგებთან დაკავშირებული მრავალი მეტრიკა
LLM-ებისთვის, დაეყრდენით ადამიანურ მიმოხილვას + მოგების მაჩვენებლის სტილის შედარებებს [5]
ტესტის სიმტკიცე - უჩვეულო შემავალი მონაცემები შენიღბული ნორმალური შემავალი მონაცემებია [1]
უსაფრთხოდ გადააგორეთ და აკონტროლეთ, რადგან მოდელები იცვლებიან და მილსადენები წყდება [1]
დოკუმენტირება მოახდინეთ, რა გამოსცადეთ და რა არა (არაკომფორტულია, მაგრამ ეფექტურია) [2][3]

ტესტირება არ ნიშნავს მხოლოდ „დაამტკიცო, რომ მუშაობს“. ეს ნიშნავს „იპოვო, თუ რატომ ვერ ხერხდება ეს შეცდომა მომხმარებლების შეცდომამდე“. დიახ, ეს ნაკლებად მიმზიდველია - მაგრამ ეს არის ის ნაწილი, რომელიც ინარჩუნებს თქვენი სისტემის სტაბილურობას, როდესაც საქმეები არეულ-დარეულ ხდება... 🧱🙂

ხშირად დასმული კითხვები

ხელოვნური ინტელექტის მოდელების ტესტირების საუკეთესო გზა, რათა ისინი შეესაბამებოდეს რეალური მომხმარებლის საჭიროებებს

დაიწყეთ „კარგის“ განსაზღვრებით რეალური მომხმარებლისა და მოდელის მიერ მხარდაჭერილი გადაწყვეტილების თვალსაზრისით და არა მხოლოდ ლიდერბორდის მეტრიკით. დაადგინეთ ყველაზე მაღალი ღირებულების წარუმატებლობის რეჟიმები (ცრუ დადებითი და ცრუ უარყოფითი) და დააკონკრეტეთ მკაცრი შეზღუდვები, როგორიცაა შეყოვნება, ღირებულება, კონფიდენციალურობა და ახსნა-განმარტების შესაძლებლობა. შემდეგ აირჩიეთ მეტრიკები და სატესტო შემთხვევები, რომლებიც ასახავს ამ შედეგებს. ეს ხელს გიშლით „ლამაზი მეტრიკის“ ოპტიმიზაციაში, რომელიც არასდროს გარდაიქმნება უკეთეს პროდუქტად.

წარმატების კრიტერიუმების განსაზღვრა შეფასების მეტრიკის არჩევამდე

ჩაწერეთ ვინ არის მომხმარებელი, რა გადაწყვეტილების მხარდაჭერაზეა გათვლილი მოდელი და როგორ გამოიყურება „ყველაზე ცუდი შემთხვევის“ წარუმატებლობა წარმოებაში. დაამატეთ ოპერაციული შეზღუდვები, როგორიცაა მისაღები შეყოვნება და მოთხოვნის ღირებულება, პლუს მმართველობითი საჭიროებები, როგორიცაა კონფიდენციალურობის წესები და უსაფრთხოების პოლიტიკა. როგორც კი ეს ყველაფერი ნათელი გახდება, მეტრიკები სწორი გაზომვის საშუალებად იქცევა. ამ ჩარჩოს გარეშე, გუნდები მიდრეკილნი არიან ოპტიმიზაციისკენ, რაც ყველაზე ადვილად გასაზომია.

მოდელის შეფასებისას მონაცემთა გაჟონვისა და შემთხვევითი მოტყუების თავიდან აცილება

შეინარჩუნეთ წვრთნის/ვალიდაციის/ტესტირების გაყოფების სტაბილურობა და დოკუმენტირებული გახლეჩის ლოგიკა, რათა შედეგები რეპროდუცირებადი დარჩეს. აქტიურად დაბლოკეთ დუბლიკატები და თითქმის დუბლიკატები გაყოფებს შორის (იგივე მომხმარებელი, დოკუმენტი, პროდუქტი ან განმეორებადი ნიმუშები). ყურადღება მიაქციეთ ფუნქციების გაჟონვას, სადაც „მომავლის“ ინფორმაცია შეყვანებში დროის ნიშნულების ან მოვლენის შემდგომი ველების მეშვეობით ხვდება. ძლიერი საბაზისო ხაზი (თუნდაც ყალბი შემფასებლები) დაგეხმარებათ შეამჩნიოთ, როდის აღნიშნავთ ხმაურს.

რას უნდა მოიცავდეს შეფასების სისტემა, რათა ტესტები განმეორებადი იყოს ცვლილებების მიუხედავად

პრაქტიკული აღკაზმულობა ხელახლა ატარებს შესადარებელ ტესტებს ყველა მოდელზე, მოთხოვნაზე ან პოლიტიკის ცვლილებაზე იგივე მონაცემთა ნაკრებებისა და ქულების დადგენის წესების გამოყენებით. ის, როგორც წესი, მოიცავს რეგრესიის კომპლექტს, მკაფიო მეტრიკის დაფებს და შენახულ კონფიგურაციებსა და არტეფაქტებს მიკვლევადობისთვის. LLM სისტემებისთვის, მას ასევე სჭირდება მოთხოვნების სტაბილური „ოქროს ნაკრები“ პლუს edge-case პაკეტი. მიზანია „დააჭირეთ ღილაკს → შესადარებელი შედეგები“ და არა „გაიმეორეთ რვეული და ილოცეთ“

მეტრიკები ხელოვნური ინტელექტის მოდელების სიზუსტის მიღმა ტესტირებისთვის

გამოიყენეთ მრავალი მეტრიკა, რადგან ერთ რიცხვს შეუძლია მნიშვნელოვანი კომპრომისების დამალვა. კლასიფიკაციისთვის, დააწყვილეთ სიზუსტე/გახსენება/F1 ზღურბლის რეგულირებისა და დაბნეულობის მატრიცებთან სეგმენტის მიხედვით. რეგრესიისთვის აირჩიეთ MAE ან RMSE იმის მიხედვით, თუ როგორ გსურთ შეცდომების დასჯა და დაამატეთ კალიბრაციის სტილის შემოწმებები, როდესაც გამომავალი ფუნქციონირებს ქულების მსგავსად. რანჟირებისთვის გამოიყენეთ NDCG/MAP/MRR და დაყავით თავი და კუდი მოთხოვნების მიხედვით, არათანაბარი შესრულების დასადგენად.

LLM-ის შედეგების შეფასება, როდესაც ავტომატიზირებული მეტრიკები არასაკმარისია

განიხილეთ ეს, როგორც მოთხოვნა-პოლიტიკის სისტემა და შეაფასეთ ქცევა და არა მხოლოდ ტექსტის მსგავსება. ბევრი გუნდი აერთიანებს ადამიანურ შეფასებას წყვილური უპირატესობის მქონე პირებთან (A/B მოგების მაჩვენებელი), პლუს დავალებებზე დაფუძნებულ შემოწმებებს, როგორიცაა „ამოიღო თუ არა სწორი ველები“ ან „დაიცვა თუ არა პოლიტიკა“. ავტომატიზირებული ტექსტური მეტრიკა შეიძლება დაეხმაროს ვიწრო შემთხვევებში, მაგრამ ისინი ხშირად გამოტოვებენ იმას, რაც მომხმარებლებს აინტერესებთ. მკაფიო რუბრიკები და რეგრესიული ნაკრები, როგორც წესი, უფრო მნიშვნელოვანია, ვიდრე ერთი ქულა.

მოდელის გამძლეობის ტესტების გაშვება, რათა ხმაურიან შეყვანებზე არ გაფუჭდეს

მოდელის სტრეს-ტესტირება ჩაატარეთ ორთოგრაფიული შეცდომების, დაკარგული მნიშვნელობების, უცნაური ფორმატირებისა და არასტანდარტული უნიკოდის გამოყენებით, რადგან რეალური მომხმარებლები იშვიათად არიან მოწესრიგებულები. დაამატეთ განაწილების ცვლის შემთხვევები, როგორიცაა ახალი კატეგორიები, ჟარგონი, სენსორები ან ენობრივი ნიმუშები. არასტაბილური ქცევის გამოსავლენად გამოიყენეთ ექსტრემალური მნიშვნელობები (ცარიელი სტრიქონები, უზარმაზარი დატვირთვა, დიაპაზონს მიღმა რიცხვები). LLM-ებისთვის, ასევე შეამოწმეთ მოთხოვნის ინექციის ნიმუშები და ხელსაწყოების გამოყენების შეცდომები, როგორიცაა ვადის ამოწურვა ან ნაწილობრივი გამომავალი.

მიკერძოებისა და სამართლიანობის საკითხების შემოწმება თეორიაში დაკარგვის გარეშე

შეაფასეთ შესრულება მნიშვნელოვან ნაჭრებზე და შეადარეთ შეცდომების მაჩვენებლები და კალიბრაცია ჯგუფებს შორის, სადაც მისი გაზომვა იურიდიულად და ეთიკურად მიზანშეწონილია. მოძებნეთ პროქსი ფუნქციები (მაგალითად, საფოსტო ინდექსი, მოწყობილობის ტიპი ან ენა), რომლებსაც შეუძლიათ ირიბად დაშიფრონ მგრძნობიარე მახასიათებლები. მოდელი შეიძლება „საერთო ჯამში ზუსტად“ გამოიყურებოდეს, მაგრამ კონკრეტული კოჰორტებისთვის მუდმივად წარუმატებელი იყოს. დოკუმენტირებულია, რა გაზომეთ და რა არა, რათა მომავალმა ცვლილებებმა ჩუმად არ გამოიწვიოს რეგრესიების ხელახლა შემოღება.

უსაფრთხოების ტესტები, რომლებიც უნდა ჩაერთოს გენერაციული ხელოვნური ინტელექტისა და LLM სისტემებისთვის

შეამოწმეთ აკრძალული კონტენტის გენერირება, კონფიდენციალურობის გაჟონვა, ჰალუცინაციები მაღალი რისკის დომენებში და ზედმეტი უარი, სადაც მოდელი ბლოკავს ნორმალურ მოთხოვნებს. ჩართეთ სწრაფი ინექცია და მონაცემთა ექსტრაქციის მცდელობები, განსაკუთრებით მაშინ, როდესაც სისტემა იყენებს ინსტრუმენტებს ან იღებს კონტენტს. დასაბუთებული სამუშაო პროცესია: განსაზღვრეთ პოლიტიკის წესები, შექმენით სატესტო მოთხოვნების ნაკრები, შეაფასეთ ადამიანური და ავტომატური შემოწმებებით და ხელახლა გაუშვით ის, როდესაც მოთხოვნები, მონაცემები ან პოლიტიკა იცვლება. თანმიმდევრულობა არის ქირა, რომელსაც იხდით.

ხელოვნური ინტელექტის მოდელების დანერგვა და მონიტორინგი გაშვების შემდეგ, დრიფტისა და ინციდენტების აღმოსაჩენად

გამოიყენეთ ეტაპობრივი დანერგვის ნიმუშები, როგორიცაა ჩრდილოვანი რეჟიმი და თანდათანობითი ტრაფიკის ტემპები, რათა აღმოაჩინოთ ხარვეზები თქვენი მომხმარებლების სრულ ბაზამდე. აკონტროლეთ შეყვანის დრიფტი (სქემის ცვლილებები, არარსებობა, განაწილების ცვლილებები) და გამომავალი დრიფტი (ქულების ცვლილებები, კლასის ბალანსის ცვლილებები), პლუს ოპერაციული მდგომარეობა, როგორიცაა შეყოვნება და ღირებულება. თვალყური ადევნეთ უკუკავშირის სიგნალებს, როგორიცაა რედაქტირება, ესკალაცია და საჩივრები, და დააკვირდით სეგმენტის დონის რეგრესიებს. როდესაც რამე შეიცვლება, ხელახლა გაუშვით იგივე აღკაზმულობა და განაგრძეთ მონიტორინგი უწყვეტად.

ცნობები

[1] NIST - ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) (PDF)
[2] მიტჩელი და სხვ. - „მოდელის ბარათები მოდელის ანგარიშგებისთვის“ (arXiv:1810.03993)
[3] გებრუ და სხვ. - „მონაცემთა ნაკრებების მონაცემთა ფურცლები“ (arXiv:1803.09010)
[4] scikit-learn - „მოდელის შერჩევისა და შეფასების“ დოკუმენტაცია
[5] ლიანგი და სხვ. - „ენობრივი მოდელების ჰოლისტური შეფასება“ (arXiv:2211.09110)

იპოვეთ უახლესი ხელოვნური ინტელექტი ოფიციალურ ხელოვნური ინტელექტის ასისტენტების მაღაზიაში

ჩვენს შესახებ

ბლოგზე დაბრუნება

ქვეყანა/რეგიონი