თუ მანქანური სწავლების სისტემებს ქმნით ან აფასებთ, ადრე თუ გვიან იგივე დაბრკოლებას წააწყდებით: მონიშნულ მონაცემებს. მოდელებმა ჯადოსნურად არ იციან რა რა არის. ადამიანებმა, პოლიტიკამ და ზოგჯერ პროგრამებმაც უნდა ასწავლონ ისინი. მაშ, რა არის ხელოვნური ინტელექტის მონაცემთა მარკირება? მოკლედ, ეს არის ნედლი მონაცემების მნიშვნელობის დამატების პრაქტიკა, რათა ალგორითმებმა შეძლონ მისგან სწავლა... 😊
🔗 რა არის ხელოვნური ინტელექტის ეთიკა?
ხელოვნური ინტელექტის პასუხისმგებლიანი განვითარებისა და განლაგების ეთიკური პრინციპების მიმოხილვა.
🔗 რა არის MCP ხელოვნურ ინტელექტში?
განმარტავს მოდელის კონტროლის პროტოკოლს და მის როლს ხელოვნური ინტელექტის ქცევის მართვაში.
🔗 რა არის Edge AI?
მოიცავს, თუ როგორ ამუშავებს ხელოვნური ინტელექტი მონაცემებს პირდაპირ საზღვარზე მდებარე მოწყობილობებზე.
🔗 რა არის აგენტური ხელოვნური ინტელექტი?
წარმოგიდგენთ ავტონომიურ ხელოვნური ინტელექტის აგენტებს, რომლებსაც შეუძლიათ დაგეგმვა, მსჯელობა და დამოუკიდებელი მოქმედება.
რა არის სინამდვილეში ხელოვნური ინტელექტის მონაცემთა მარკირება? 🎯
ხელოვნური ინტელექტის მონაცემების მარკირება არის ადამიანისთვის გასაგები თეგების, ინტერვალების, უჯრების, კატეგორიების ან შეფასებების მიმაგრების პროცესი ნედლ შეყვანაზე, როგორიცაა ტექსტი, სურათები, აუდიო, ვიდეო ან დროითი სერიები, რათა მოდელებმა შეძლონ ნიმუშების აღმოჩენა და პროგნოზების გაკეთება. წარმოიდგინეთ მანქანების გარშემო შემოსაზღვრული უჯრები, ტექსტში ადამიანებსა და ადგილებზე ერთეულების თეგები ან სასურველი ხმის მიცემა, რომლისთვისაც ჩატბოტის პასუხი უფრო სასარგებლოა. ამ ეტიკეტების გარეშე, კლასიკური ზედამხედველობითი სწავლება არასდროს იწყება.
ასევე გაიგონებთ იარლიყებს, რომლებსაც „ძირითადი სიმართლე“ ან „ოქროს მონაცემები“ : შეთანხმებული პასუხები მკაფიო ინსტრუქციებით, რომლებიც გამოიყენება მოდელის ქცევის სწავლების, დადასტურებისა და აუდიტის მიზნით. საბაზისო მოდელებისა და სინთეზური მონაცემების ეპოქაშიც კი, იარლიყებიანი ნაკრებები კვლავ მნიშვნელოვანია შეფასების, დახვეწის, უსაფრთხოების წითელი გუნდების შერწყმისა და გრძელი კუდის შემთხვევებისთვის - ანუ იმის გასაგებად, თუ როგორ იქცევა თქვენი მოდელი უცნაურ რაღაცეებზე, რასაც თქვენი მომხმარებლები რეალურად აკეთებენ. უფასო სადილი არ არის, უბრალოდ უკეთესი სამზარეულოს ხელსაწყოები.

რა ხდის ხელოვნური ინტელექტის მონაცემთა მარკირებას კარგს ✅
მარტივად რომ ვთქვათ: კარგი ეტიკეტირება საუკეთესო გაგებით მოსაწყენია. ის პროგნოზირებადი, განმეორებადი და ოდნავ ზედმეტად დოკუმენტირებული ჩანს. აი, როგორ გამოიყურება ეს:
-
მჭიდრო ონტოლოგია : კლასების, ატრიბუტებისა და ურთიერთობების დასახელებული ნაკრები, რომლებიც თქვენთვის მნიშვნელოვანია.
-
კრისტალის ინსტრუქციები : დამუშავებული მაგალითები, კონტრმაგალითები, სპეციალური შემთხვევები და ტაი-ბრეიკის წესები.
-
მიმომხილველის ციკლები : თვალის მეორე წყვილი დაკვირვება დავალებების გარკვეულ ნაწილზე.
-
შეთანხმების მეტრიკა : ანოტატორებს შორის შეთანხმება (მაგ., კოენის κ, კრიპენდორფის α), ამიტომ თქვენ ზომავთ თანმიმდევრულობას და არა ვიბრაციებს. α განსაკუთრებით მოსახერხებელია, როდესაც ეტიკეტები აკლია ან მრავალი ანოტატორი მოიცავს სხვადასხვა ელემენტს [1].
-
უკიდურესად სპეციფიკური მებაღეობა : რეგულარულად აგროვებთ უცნაურ, წინააღმდეგობრივ ან უბრალოდ იშვიათ შემთხვევებს.
-
მიკერძოების შემოწმება : აუდიტის მონაცემთა წყაროები, დემოგრაფიული მონაცემები, რეგიონები, დიალექტები, განათების პირობები და სხვა.
-
წარმომავლობა და კონფიდენციალურობა : თვალყური ადევნეთ მონაცემების წყაროს, მათი გამოყენების უფლებებს და პირადი ინფორმაციის დამუშავების წესებს (რა ითვლება პირადი ინფორმაციის დამუშავებად, როგორ ხდება მისი კლასიფიკაცია და დაცვის ზომები) [5].
-
ტრენინგზე უკუკავშირი : ეტიკეტები არ რჩება ცხრილების სასაფლაოზე - ისინი უკუკავშირს იღებენ აქტიურ სწავლებაზე, დახვეწასა და შეფასებაზე.
პატარა აღსარება: თქვენს მითითებებს რამდენჯერმე გადაწერთ. ეს ნორმალურია. როგორც ჩაშუშულისთვის სანელებლების შერევას, მცირედი ცვლილებაც დიდ შედეგს იძლევა.
მოკლე ანეკდოტი: ერთმა გუნდმა თავის მომხმარებლის ინტერფეისს დაამატა ერთი ვარიანტი „ვერ გადაწყვეტ - საჭიროა პოლიტიკა“. თანხმობა გაიზარდა, რადგან ანოტატორებმა შეწყვიტეს ვარაუდების იძულებითი გამოთქმა და გადაწყვეტილებების ჟურნალი ერთ ღამეში უფრო მკაფიო გახდა. მოსაწყენი გამარჯვებები.
შედარების ცხრილი: ხელოვნური ინტელექტის მონაცემთა მარკირების ინსტრუმენტები 🔧
ამომწურავი არ არის და დიახ, ფორმულირება განზრახ ცოტა არეულია. ფასების ცვლილება - ბიუჯეტის შედგენამდე ყოველთვის გადაამოწმეთ გამყიდველების საიტებზე.
| ინსტრუმენტი | საუკეთესოა | ფასის სტილი (მიმანიშნებელი) | რატომ მუშაობს |
|---|---|---|---|
| ეტიკეტების ყუთი | საწარმოები, CV + NLP ნაზავი | გამოყენებაზე დაფუძნებული, უფასო დონე | კარგი ხარისხის ხარისხის მართვის სამუშაო პროცესები, ონტოლოგიები და მეტრიკები; საკმაოდ კარგად უმკლავდება მასშტაბირებას. |
| AWS SageMaker Ground Truth | AWS-ცენტრირებული ორგანიზაციები, HITL მილსადენები | თითო დავალებაზე + AWS-ის გამოყენება | მჭიდროდ არის თავსებადი AWS სერვისებთან, ადამიანის ჩართულობის ოფციებთან და საიმედო ინფრაწითელ კაუჭებთან. |
| ხელოვნური ინტელექტის მასშტაბირება | რთული ამოცანები, მართული სამუშაო ძალა | ინდივიდუალური შეთავაზება, ეტაპობრივი | ხშირი შეხების სერვისები და ხელსაწყოები; ძლიერი ოპერაციები გამძლე კიდეების მქონე კორპუსებისთვის. |
| სუპერანოტაცია | ხედვაზე ორიენტირებული გუნდები, სტარტაპები | დონეები, უფასო საცდელი პერიოდი | გაუმჯობესებული ინტერფეისი, თანამშრომლობა, სასარგებლო მოდელის დახმარებით შექმნილი ხელსაწყოები. |
| პროდიჯი | დეველოპერები, რომლებსაც სურთ ადგილობრივი კონტროლი | სამუდამო ლიცენზია, თითო ადგილზე | სკრიპტირებადი, სწრაფი ციკლები, სწრაფი რეცეპტების ლოკალურად შესრულება; შესანიშნავია NLP-სთვის. |
| დოკანო | ღია კოდის NLP პროექტები | უფასო, ღია კოდი | საზოგადოებაზე ორიენტირებული, მარტივი განსათავსებელი, კარგია კლასიფიკაციისა და თანმიმდევრობის სამუშაოებისთვის |
ფასების მოდელების რეალობის შემოწმება : მომწოდებლები ერთმანეთში ურევენ მოხმარების ერთეულებს, დავალებების საფასურს, დონეებს, საწარმოს ინდივიდუალურ შეთავაზებებს, ერთჯერად ლიცენზიებს და ღია კოდს. პოლიტიკა იცვლება; სპეციფიკა გადაამოწმეთ უშუალოდ მომწოდებლის დოკუმენტებთან, სანამ შესყიდვები ციფრებს ცხრილში შეიტანს.
ეტიკეტების გავრცელებული ტიპები, სწრაფი წარმოსახვით 🧠
-
სურათის კლასიფიკაცია : ერთი ან მრავალი ეტიკეტის მქონე თეგები მთელი სურათისთვის.
-
ობიექტის აღმოჩენა : ჩარჩოების შემოსაზღვრა ან ობიექტების გარშემო ბრუნვადი ჩარჩოები.
-
სეგმენტაცია : პიქსელის დონის ნიღბების მაგალითი ან სემანტიკური; უცნაურად დამაკმაყოფილებელია სუფთა მდგომარეობაში.
-
ძირითადი პუნქტები და პოზები : ღირსშესანიშნაობები, როგორიცაა სახსრები ან სახის წერტილები.
-
NLP : დოკუმენტის ეტიკეტები, დასახელებული ერთეულების სივრცეები, ურთიერთობები, კორესპონდენციის ბმულები, ატრიბუტები.
-
აუდიო და მეტყველება : ტრანსკრიფცია, სპიკერის დიარიზაცია, ინტენტ თეგები, აკუსტიკური მოვლენები.
-
ვიდეო : კადრების მიხედვით დალაგებული ყუთები ან ტრეკები, დროითი მოვლენები, მოქმედების ეტიკეტები.
-
დროის სერიები და სენსორები : ფანჯრიანი მოვლენები, ანომალიები, ტენდენციური რეჟიმები.
-
გენერაციული სამუშაო პროცესები : უპირატესობების რანჟირება, უსაფრთხოების წითელი დროშები, სიმართლის შეფასება, რუბრიკაზე დაფუძნებული შეფასება.
-
ძიება და RAG : query-doc-ის შესაბამისობა, პასუხის გაცემა, მოძიების შეცდომები.
თუ სურათი პიცაა, სეგმენტაცია ყველა ნაჭრის იდეალურად დაჭრას ნიშნავს, ხოლო აღმოჩენა კი - მიუთითებდეს და თქვას, რომ ნაჭერია... სადღაც იქით.
სამუშაო პროცესის ანატომია: მოკლე ვერსიიდან ოქროს მონაცემებამდე 🧩
საიმედო ეტიკეტირების მილსადენი, როგორც წესი, ამ ფორმას მიჰყვება:
-
განსაზღვრეთ ონტოლოგია : კლასები, ატრიბუტები, ურთიერთობები და დაშვებული ორაზროვნება.
-
მონახაზების ინსტრუქციები : მაგალითები, უკიდურესი შემთხვევები და რთული კონტრმაგალითები.
-
მონიშნეთ საპილოტე ნაკრები : მიიღეთ რამდენიმე ასეული მაგალითი ანოტირებული ხვრელების საპოვნელად.
-
გაზომეთ შესაბამისობა : გამოთვალეთ κ/α; გადახედეთ ინსტრუქციებს მანამ, სანამ ანოტატორები ერთმანეთს არ შეერწყმებიან [1].
-
ხარისხის უზრუნველყოფის დიზაინი : კონსენსუსური კენჭისყრა, გადაწყვეტილების მიღება, იერარქიული მიმოხილვა და შემოწმებები.
-
წარმოების ეტაპები : გამტარუნარიანობის, ხარისხისა და დრიფტის მონიტორინგი.
-
ციკლის დახურვა : რუბრიკების გადამზადება, ხელახლა ნიმუშის შერჩევა და განახლება მოდელისა და პროდუქტის ევოლუციის შესაბამისად.
რჩევა, რომლისთვისაც მოგვიანებით მადლობას გადაუხდით საკუთარ თავს: აწარმოეთ ცოცხალი გადაწყვეტილებების დღიური . ჩაიწერეთ თითოეული განმარტებითი წესი, რომელსაც დაამატებთ და მიზეზი . მომავალში - კონტექსტს დაივიწყებთ. მომავალში - ამაზე გაბრაზდებით.
ადამიანის ჩარევა, სუსტი ზედამხედველობა და „მეტი ეტიკეტი, ნაკლები დაწკაპუნება“ აზროვნება 🧑💻🤝
„ადამიანი-ინ-ლაპში“ (HITL) ნიშნავს, რომ ადამიანები მოდელებთან თანამშრომლობენ ტრენინგის, შეფასების ან პირდაპირი ოპერაციების დროს - ადასტურებენ, ასწორებენ ან თავს იკავებენ მოდელის შემოთავაზებებისგან. გამოიყენეთ ის სიჩქარის დასაჩქარებლად, ამავდროულად, ადამიანებს აძლევთ ხარისხსა და უსაფრთხოებაზე პასუხისმგებლობის საშუალებას. HITL არის სანდო ხელოვნური ინტელექტის რისკების მართვის ძირითადი პრაქტიკა (ადამიანის ზედამხედველობა, დოკუმენტაცია, მონიტორინგი) [2].
სუსტი ზედამხედველობა განსხვავებული, მაგრამ დამატებითი ხრიკია: პროგრამული წესები, ევრისტიკა, დისტანციური ზედამხედველობა ან სხვა ხმაურიანი წყაროები მასშტაბურად წარმოქმნიან წინასწარ ეტიკეტებს, შემდეგ კი თქვენ მათ ხმაურს აშორებთ. მონაცემთა პროგრამირებამ პოპულარული გახადა ხმაურიანი ეტიკეტების მრავალი წყაროს (ანუ ეტიკეტირების ფუნქციების ) გაერთიანება და მათი სიზუსტის შესწავლა უფრო მაღალი ხარისხის სასწავლო ნაკრების შესაქმნელად [3].
პრაქტიკაში, მაღალი სიჩქარის მქონე გუნდები სამივეს ერთად იყენებენ: ოქროს ნაკრებებისთვის ხელით ეტიკეტირებას, bootstrap-ისთვის სუსტ ზედამხედველობას და HITL-ს ყოველდღიური სამუშაოს დასაჩქარებლად. ეს არ არის თაღლითობა. ეს ხელოსნობაა.
აქტიური სწავლება: აირჩიეთ შემდეგი საუკეთესო რამ, რაც უნდა მონიშნოთ 🎯📈
აქტიური სწავლება ჩვეულ ნაკადს ცვლის. მონაცემების შემთხვევითი შერჩევის ნაცვლად, თქვენ საშუალებას აძლევთ მოდელს მოითხოვოს ყველაზე ინფორმაციული მაგალითები: მაღალი გაურკვევლობა, მაღალი უთანხმოება, მრავალფეროვანი წარმომადგენლები ან წერტილები გადაწყვეტილების საზღვართან ახლოს. კარგი შერჩევის საშუალებით თქვენ შეამცირებთ ეტიკეტირების ნარჩენებს და ფოკუსირდებით გავლენასზე. თანამედროვე კვლევები, რომლებიც მოიცავს ღრმა აქტიურ სწავლებას, აჩვენებს ძლიერ შესრულებას ნაკლები ეტიკეტით, როდესაც ორაკულის ციკლი კარგად არის შემუშავებული [4].
ძირითადი რეცეპტი, რომლითაც შეგიძლიათ დაიწყოთ, დრამის გარეშე:
-
მცირე თესლის ნაკრებზე ვარჯიში.
-
შეაფასეთ დაუსახელებელი აუზი.
-
აირჩიეთ საუკეთესო K გაურკვევლობის ან მოდელის შეუთანხმებლობის მიხედვით.
-
იარლიყი. გადამზადება. გაიმეორეთ მცირე ჯგუფებად.
-
დააკვირდით ვალიდაციის მრუდებსა და შეთანხმების მეტრიკას, რათა ხმაურს არ დაედევნოთ.
თქვენ მიხვდებით, რომ ის მუშაობს, როდესაც თქვენი მოდელი გაუმჯობესდება თქვენი ყოველთვიური ეტიკეტირების გადასახადის გაორმაგების გარეშე.
ხარისხის კონტროლი, რომელიც რეალურად მუშაობს 🧪
ოკეანის ადუღება არ არის საჭირო. დაისახეთ შემდეგი შემოწმებები:
-
ოქროს კითხვები : ცნობილი ნივთების ინექცია და თითოეული ეტიკეტერის სიზუსტის თვალყურის დევნება.
-
კონსენსუსი გადაწყვეტილებით : ორი დამოუკიდებელი ლეიბლი პლუს რეცენზენტი უთანხმოების შემთხვევაში.
-
ანოტატორებს შორის შეთანხმება : გამოიყენეთ α, როდესაც გაქვთ მრავალი ანოტატორი ან არასრული იარლიყი, κ წყვილებისთვის; ნუ გაამახვილებთ ყურადღებას ერთ ზღურბლზე - კონტექსტი მნიშვნელოვანია [1].
-
სახელმძღვანელო პრინციპების გადახედვა : განმეორებადი შეცდომები, როგორც წესი, ორაზროვან ინსტრუქციებს ნიშნავს და არა ცუდ ანოტატორებს.
-
დრიფტის შემოწმებები : ეტიკეტების განაწილების შედარება დროსა და გეოგრაფიაში, შეყვანის არხებში.
თუ მხოლოდ ერთ მეტრიკას აირჩევთ, თანხმობა აირჩიეთ. ეს ჯანმრთელობის სწრაფი სიგნალია. ოდნავ მცდარი მეტაფორა: თუ თქვენი ეტიკეტირების მოწყობილობები არ არის გასწორებული, თქვენი მოდელი მერყევ ბორბლებზე მუშაობს.
სამუშაო ძალის მოდელები: შიდა, BPO, ხალხმრავალი ან ჰიბრიდული 👥
-
კომპანიის შიდა რესურსები : საუკეთესოა მგრძნობიარე მონაცემებისთვის, ნიუანსირებული დომენებისთვის და სწრაფი ფუნქციონალური სწავლებისთვის.
-
სპეციალიზებული მომწოდებლები : თანმიმდევრული გამტარუნარიანობა, გაწვრთნილი ხარისხის კონტროლი და დაფარვა დროის სარტყლებში.
-
კრაუდსორსინგი : იაფია თითოეული დავალებისთვის, მაგრამ დაგჭირდებათ ძლიერი პრივილეგიები და სპამის კონტროლი.
-
ჰიბრიდული : შეინარჩუნეთ ძირითადი ექსპერტთა გუნდი და გადატვირთეთ გარე შესაძლებლობებით.
რასაც არ უნდა აირჩევდეთ, ინვესტიცია ჩადეთ სასტარტო დარტყმებში, სახელმძღვანელო ტრენინგებში, კალიბრაციის რაუნდებსა და ხშირ უკუკავშირში. იაფიანი ლეიბლები, რომლებიც სამჯერ ხელახლა ლეიბლის გაცემას აიძულებენ, იაფი არ არის.
ღირებულება, დრო და ROI: რეალობის სწრაფი შემოწმება 💸⏱️
ხარჯები იყოფა სამუშაო ძალად, პლატფორმად და ხარისხის უზრუნველყოფად. სავარაუდო დაგეგმვისთვის, თქვენი სამუშაო პროცესის გეგმა ასე დაგეგმეთ:
-
გამტარუნარიანობის მიზანი : ერთეული დღეში თითო ეტიკეტირების მოწყობილობაზე × ეტიკეტირების მოწყობილობა.
-
ხარისხის უზრუნველყოფის ზედაპირული ხარჯი : ორჯერ მონიშნული ან განხილული მონაცემების პროცენტი.
-
ხელახალი დამუშავების ტემპი : გაიდლაინების განახლების შემდეგ ხელახალი ანოტაციისთვის გამოყოფილი ბიუჯეტი.
-
ავტომატიზაციის აწევა : მოდელის დახმარებით წინასწარი ეტიკეტები ან პროგრამული წესები შეიძლება მნიშვნელოვნად შეამციროს ხელით დატვირთვები (არა ჯადოსნური, მაგრამ მნიშვნელოვანი).
თუ შესყიდვების სამსახური ციფრს ითხოვს, მიეცით მათ მოდელი - და არა ვარაუდი - და განაახლეთ ის თქვენი მითითებების სტაბილიზაციისთანავე.
ხაფანგები, რომლებსაც ერთხელ მაინც წააწყდებით და როგორ ავიცილოთ თავიდან 🪤
-
ინსტრუქციების გამეორება : მითითებები ნოველად იქცევა. გამოასწორეთ გადაწყვეტილების ხეებით + მარტივი მაგალითებით.
-
კლასის გაბერვა : ძალიან ბევრი კლასი ბუნდოვანი საზღვრებით. გააერთიანეთ ან განსაზღვრეთ მკაცრი „სხვა“ პოლიტიკით.
-
სიჩქარის გადაჭარბებული ინდექსირება : ნაჩქარევი ეტიკეტები ჩუმად შხამავს ვარჯიშის მონაცემებს. ჩასვით ოქროს ქულები; შეზღუდეთ ყველაზე ცუდი დახრილობების სიჩქარე.
-
ინსტრუმენტის ჩაკეტვა : ექსპორტის ფორმატების გამოყენება. JSONL სქემებისა და იდემპოტენტი ელემენტების ID-ების შესახებ წინასწარ გადაწყვიტეთ.
-
შეფასების იგნორირება : თუ ჯერ შეფასების ნაკრებს არ მონიშნავთ იარლიყს, ვერასდროს იქნებით დარწმუნებული, რა გაუმჯობესდა.
მოდით, ვიყოთ გულახდილები, დროდადრო უკან დაიხევთ. არა უშავს. ხრიკი იმაში მდგომარეობს, რომ უკან დახევა ჩაიწეროთ, რათა შემდეგ ჯერზე ეს განზრახ გააკეთოთ.
მინი-ხშირად დასმული კითხვები: სწრაფი, გულახდილი პასუხები 🙋♀️
კ: ეტიკეტირება და ანოტაცია - განსხვავდება ისინი?
პ: პრაქტიკაში ადამიანები მათ ერთმანეთის მაგივრად იყენებენ. ანოტაცია არის მარკირების ან ტეგირების აქტი. ეტიკეტირება ხშირად გულისხმობს ჭეშმარიტებაზე ორიენტირებულ აზროვნებას ხარისხის უზრუნველყოფით და მითითებებით. კარტოფილი, კარტოფილი.
კ: შემიძლია თუ არა ეტიკეტირების გამოტოვება სინთეზური მონაცემების ან თვითზედამხედველობის წყალობით?
პ: შეგიძლიათ შეამციროთ ისინი, მაგრამ არა გამოტოვოთ. ეტიკეტირებული მონაცემები მაინც დაგჭირდებათ შეფასებისთვის, დამცავი ბარიერებისთვის, დახვეწისთვის და პროდუქტის სპეციფიკური ქცევისთვის. სუსტი ზედამხედველობა შეიძლება გაუმჯობესდეს, როდესაც მხოლოდ ხელით ეტიკეტირება არ გამოდგება [3].
კ: თუ ჩემი შემფასებლები ექსპერტები არიან, მაინც მჭირდება თუ არა ხარისხის მეტრიკები?
პ: დიახ. ექსპერტებიც არ ეთანხმებიან ამას. ბუნდოვანი განმარტებებისა და ორაზროვანი კლასების აღმოსაჩენად გამოიყენეთ შეთანხმების მეტრიკები (κ/α), შემდეგ კი დააზუსტეთ ონტოლოგია ან წესები [1].
კ: ადამიანის ჩართულობა მხოლოდ მარკეტინგია?
პ: არა. ეს პრაქტიკული ნიმუშია, სადაც ადამიანები წარმართავენ, ასწორებენ და აფასებენ მოდელის ქცევას. ეს რეკომენდებულია ხელოვნური ინტელექტის რისკების მართვის სანდო პრაქტიკის ფარგლებში [2].
კ: როგორ განვსაზღვრო შემდეგი მარკირების პრიორიტეტულობა?
პასუხი: დაიწყეთ აქტიური სწავლებით: აიღეთ ყველაზე გაურკვეველი ან მრავალფეროვანი ნიმუშები, რათა თითოეულმა ახალმა მარკირებამ მაქსიმალური მოდელის გაუმჯობესება მოგცეთ [4].
საველე შენიშვნები: პატარა რამ, რაც დიდ განსხვავებას ქმნის ✍️
-
შეინახეთ ცოცხალი ტაქსონომიის ფაილი თქვენს საცავში. მოეპყარით მას როგორც კოდს.
-
შეინახეთ „ადრე“ და „შემდეგ“ მაგალითები ყოველთვის, როდესაც ინსტრუქციებს განაახლებთ.
-
ააწყვეთ პაწაწინა, იდეალური ოქროს ნაკრები და დაიცავით იგი დაბინძურებისგან.
-
კალიბრაციის სესიების როტაცია : აჩვენეთ 10 ერთეული, ჩუმად მონიშნეთ ისინი, შეადარეთ, განიხილეთ, განაახლეთ წესები.
-
ტრეკის ეტიკეტირების ანალიტიკა - ძლიერი დაფები, არანაირი სირცხვილი. თქვენ იპოვით ტრენინგის შესაძლებლობებს და არა ბოროტმოქმედებს.
-
მოდელის დახმარებით შემოთავაზებული წინადადებები დაამატეთ . თუ წინასწარი ეტიკეტები არასწორია, ისინი ადამიანებს ანელებენ. თუ ისინი ხშირად მართლები არიან, ეს მაგიაა.
დასკვნითი შენიშვნები: ეტიკეტები თქვენი პროდუქტის მეხსიერებაა 🧩💡
რა არის ხელოვნური ინტელექტის მონაცემთა ეტიკეტირება თავისი არსით? ეს არის თქვენი გზა, გადაწყვიტოთ, თუ როგორ უნდა ხედავდეს მოდელი სამყაროს, ერთი ფრთხილი გადაწყვეტილებით ერთდროულად. გააკეთეთ ეს კარგად და ყველაფერი შემდგომ ეტაპზე უფრო ადვილი გახდება: უკეთესი სიზუსტე, ნაკლები რეგრესია, უფრო ნათელი დებატები უსაფრთხოებასა და მიკერძოებაზე, უფრო გლუვი მიწოდება. გააკეთეთ ეს დაუდევრად და თქვენ გამუდმებით იკითხავთ, რატომ იქცევა მოდელი არასწორად - მაშინ როდესაც პასუხი თქვენს მონაცემთა ნაკრებშია არასწორი სახელის ეტიკეტით. ყველაფერს არ სჭირდება დიდი გუნდი ან დახვეწილი პროგრამული უზრუნველყოფა - მაგრამ ყველაფერს სჭირდება მოვლა.
დიდი ხანია არ წამიკითხავს : ჩადეთ ინვესტიცია მკაფიო ონტოლოგიაში, დაწერეთ მკაფიო წესები, გაზომეთ შეთანხმება, შეურიეთ სახელმძღვანელო და პროგრამული იარლიყები და მიეცით აქტიურ სწავლებას საშუალება, აირჩიოს შემდეგი საუკეთესო ელემენტი. შემდეგ გაიმეორეთ. ისევ. და ისევ... და უცნაურია, რომ ისიამოვნებთ. 😄
ცნობები
[1] არტშტეინი, რ. და პოეზიო, მ. (2008). კოდერებს შორის შეთანხმება გამოთვლითი ლინგვისტიკისთვის . გამოთვლითი ლინგვისტიკა, 34(4), 555–596. (მოიცავს κ/α-ს და შეთანხმების ინტერპრეტაციის წესს, დაკარგული მონაცემების ჩათვლით.)
PDF
[2] NIST (2023). ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) . (ადამიანური ზედამხედველობა, დოკუმენტაცია და რისკების კონტროლი სანდო ხელოვნური ინტელექტისთვის.)
PDF
[3] რატნერი, ა.ჯ., დე სა, ს., ვუ, ს., სელსამი, დ. და რე, ს. (2016). მონაცემთა პროგრამირება: დიდი სასწავლო ნაკრებების სწრაფად შექმნა . NeurIPS. (სუსტი ზედამხედველობისა და ხმაურიანი ეტიკეტების ხმაურისგან გათავისუფლების ფუნდამენტური მიდგომა.)
PDF
[4] ლი, დ., ვანგი, ზ., ჩენი, ი. და სხვ. (2024). ღრმა აქტიური სწავლების მიმოხილვა: ბოლოდროინდელი მიღწევები და ახალი საზღვრები . (დადასტურებები და ნიმუშები ეტიკეტების ეფექტური აქტიური სწავლებისთვის.)
PDF
[5] NIST (2010). SP 800-122: პირადად იდენტიფიცირებადი ინფორმაციის (PII) კონფიდენციალურობის დაცვის სახელმძღვანელო . (რა ითვლება პირადად იდენტიფიცირებად და როგორ დავიცვათ ის თქვენს მონაცემთა გადაცემის პროცესში.)
PDF