მოკლე პასუხი: საძირკვლის მოდელები არის დიდი, ზოგადი დანიშნულების ხელოვნური ინტელექტის მოდელები, რომლებიც გაწვრთნილია უზარმაზარ, ფართო მონაცემთა ნაკრებებზე და შემდეგ ადაპტირებულია მრავალ სამუშაოზე (წერა, ძიება, კოდირება, სურათები) მინიშნების, დახვეწის, ხელსაწყოების ან მოძიების გზით. თუ გჭირდებათ სანდო პასუხები, შეუსაბამეთ ისინი დამიწებას (მაგალითად, RAG), მკაფიო შეზღუდვებსა და შემოწმებებს, იმის ნაცვლად, რომ მათ იმპროვიზაციის საშუალება მისცეთ.
ძირითადი დასკვნები:
განმარტება : ერთი ფართოდ გაწვრთნილი საბაზისო მოდელი, რომელიც ხელახლა გამოიყენება მრავალ დავალებაში და არა თითო მოდელზე ერთი დავალება.
ადაპტაცია : ქცევის წარმართვისთვის გამოიყენეთ სტიმული, დახვეწა, LoRA/ადაპტერები, RAG და ინსტრუმენტები.
გენერაციული შესაბამისობა : ისინი ხელს უწყობენ ტექსტის, სურათის, აუდიოს, კოდის და მულტიმოდალური კონტენტის გენერირებას.
ხარისხის სიგნალები : პრიორიტეტი მიანიჭეთ მართვადობას, ჰალუცინაციების შემცირებას, მულტიმოდალურ უნარს და ეფექტურ დასკვნების გამოტანას.
რისკების კონტროლი : ჰალუცინაციების, მიკერძოების, კონფიდენციალურობის გაჟონვის დაგეგმვა და სწრაფი ინექცია მართვისა და ტესტირების გზით.

სტატიები, რომელთა წაკითხვაც შეიძლება მოგეწონოთ ამის შემდეგ:
🔗 რა არის ხელოვნური ინტელექტის კომპანია?
გაიგეთ, თუ როგორ ქმნიან ხელოვნური ინტელექტის ფირმები პროდუქტებს, გუნდებს და შემოსავლის მოდელებს.
🔗 როგორ გამოიყურება ხელოვნური ინტელექტის კოდი
იხილეთ ხელოვნური ინტელექტის კოდის მაგალითები, Python-ის მოდელებიდან API-ებამდე.
🔗 რა არის ხელოვნური ინტელექტის ალგორითმი
გაიგეთ, რა არის ხელოვნური ინტელექტის ალგორითმები და როგორ იღებენ ისინი გადაწყვეტილებებს.
🔗 რა არის ხელოვნური ინტელექტის ტექნოლოგია?
შეისწავლეთ ძირითადი ხელოვნური ინტელექტის ტექნოლოგიები, რომლებიც ხელს უწყობენ ავტომატიზაციას, ანალიტიკას და ინტელექტუალურ აპლიკაციებს.
1) საძირკვლის მოდელები - ნისლის გარეშე განმარტება 🧠
საბაზისო მოდელი არის დიდი, ზოგადი დანიშნულების ხელოვნური ინტელექტის მოდელი, რომელიც გაწვრთნილია ფართო მონაცემებზე (როგორც წესი, დიდი რაოდენობით), ამიტომ მისი ადაპტირება შესაძლებელია მრავალ დავალებაზე და არა მხოლოდ ერთზე ( NIST , სტენფორდის CRFM ).
ცალკე მოდელის შექმნის ნაცვლად:
-
ელფოსტის წერა
-
კითხვებზე პასუხის გაცემა
-
PDF ფაილების შეჯამება
-
სურათების გენერირება
-
დახმარების ბილეთების კლასიფიკაცია
-
ენების თარგმნა
-
კოდის წინადადებების გაკეთება
...თქვენ ავარჯიშებთ ერთ დიდ საბაზისო მოდელს, რომელიც „სწავლობს სამყაროს“ ბუნდოვანი სტატისტიკური გზით, შემდეგ კი ადაპტირებთ კონკრეტულ დავალებებზე მინიშნებების, დახვეწის ან დამატებითი ინსტრუმენტების გამოყენებით ( ბომასანი და სხვ., 2021 ).
სხვა სიტყვებით რომ ვთქვათ: ეს არის ზოგადი ძრავა, რომლის მართვაც შეგიძლიათ.
და დიახ, საკვანძო სიტყვაა „ზოგადი“. სწორედ ეს არის მთელი ხრიკი.
2) რა არის გენერაციული ხელოვნური ინტელექტის საფუძვლების მოდელები? (როგორ ერგებიან ისინი კონკრეტულად) 🎨📝
მაშ ასე, რა არის გენერაციული ხელოვნური ინტელექტის ფუნდამენტური მოდელები? ეს არის ძირითადი მოდელები, რომლებიც ქმნიან სისტემებს, რომლებსაც შეუძლიათ ახალი კონტენტის - ტექსტის, სურათების, აუდიოს, კოდის, ვიდეოს და სულ უფრო ხშირად… ამ ყველაფრის ნაზავის - გენერირება ( NIST , NIST Generative AI Profile ).
გენერაციული ხელოვნური ინტელექტი არ ეხება მხოლოდ ისეთი იარლიყების პროგნოზირებას, როგორიცაა „სპამი / არა სპამი“. ის გულისხმობს ისეთი შედეგების შექმნას, რომლებიც თითქოს ადამიანის მიერ არის შექმნილი.
-
აბზაცები
-
ლექსები
-
პროდუქტის აღწერილობები
-
ილუსტრაციები
-
მელოდიები
-
აპლიკაციის პროტოტიპები
-
სინთეზური ხმები
-
და ზოგჯერ დაუჯერებლად თავდაჯერებული სისულელეები 🙃
საძირკვლის მოდელები განსაკუთრებით კარგია აქ, რადგან:
-
მათ უზარმაზარი მონაცემთა ნაკრებებიდან ფართომასშტაბიანი ნიმუშები აითვისეს ( ბომასანი და სხვ., 2021 )
-
მათ შეუძლიათ ახალ (თუნდაც უცნაურ) მოთხოვნებზე განზოგადება ( ბრაუნი და სხვ., 2020 )
-
მათი ხელახლა გამოყენება შესაძლებელია ათობით შედეგისთვის ნულიდან გადამზადების გარეშე ( ბომასანი და სხვ., 2021 )
ისინი „ძირითადი ფენაა“ - პურის ცომის მსგავსად. შეგიძლიათ გამოაცხოთ ბაგეტის, პიცის ან დარიჩინის რულეტების სახით... ეს იდეალური მეტაფორა არ არის, მაგრამ მიმიხვდით 😄
3) რატომ შეცვალეს ყველაფერი (და რატომ არ წყვეტენ ხალხი მათზე საუბარს) 🚀
საფუძვლო მოდელების შექმნამდე, ხელოვნური ინტელექტის დიდი ნაწილი დავალებების სპეციფიკური იყო:
-
განწყობის ანალიზის მოდელის მომზადება
-
სხვას თარგმნისთვის ასწავლე
-
სხვას ასწავლე სურათების კლასიფიკაციისთვის
-
სხვა პირის გაწვრთნა დასახელებული ერთეულის ამოცნობისთვის
ეს მუშაობდა, მაგრამ ნელი, ძვირი და ერთგვარად... მყიფე იყო.
საძირკვლის მოდელებმა ეს შეცვალეს:
-
ერთხელ წინასწარი მომზადება (დიდი ძალისხმევა)
-
ხელახალი გამოყენება ყველგან (დიდი ანაზღაურება) ( Bommasani et al., 2021 )
ეს ხელახალი გამოყენება მულტიპლიკატორია. კომპანიებს შეუძლიათ ერთი მოდელის ოჯახის თავზე 20 ფუნქციის შექმნა, იმის ნაცვლად, რომ 20-ჯერ ხელახლა გამოიგონონ „ბორბლის“ მოდელი.
ასევე, მომხმარებლის გამოცდილება უფრო ბუნებრივი გახდა:
-
თქვენ არ „იყენებთ კლასიფიკატორს“
-
მოდელს ისე ელაპარაკები, თითქოს ის დამხმარე კოლეგა იყოს, რომელიც არასდროს სძინავს ☕🤝
ზოგჯერ ეს კოლეგას ჰგავს, რომელიც თავდაჯერებულად ყველაფერს არასწორად ესმის, მაგრამ ვაიმე. ზრდა.
4) ძირითადი იდეა: წინასწარი ტრენინგი + ადაპტაცია 🧩
თითქმის ყველა საძირკვლის მოდელი მიჰყვება ნიმუშს ( სტენფორდის CRFM , NIST ):
წინასწარი ტრენინგი (ინტერნეტის „შეწოვის“ ფაზა) 📚
მოდელი ივარჯიშება მასიურ, ფართო მონაცემთა ნაკრებებზე თვითკონტროლირებადი სწავლების ( NIST ) გამოყენებით. ენობრივი მოდელებისთვის ეს, როგორც წესი, ნიშნავს გამოტოვებული სიტყვების ან შემდეგი ჟეტონის პროგნოზირებას ( დევლინი და სხვ., 2018 , ბრაუნი და სხვ., 2020 ).
საქმე იმაში არ არის, რომ მას ერთი დავალება ასწავლოთ. საქმე იმაშია, რომ მას ზოგადი წარმოდგენები :
-
გრამატიკა
-
ფაქტები (ერთგვარი)
-
მსჯელობის ნიმუშები (ზოგჯერ)
-
წერის სტილები
-
კოდის სტრუქტურა
-
საერთო ადამიანური განზრახვა
ადაპტაცია („პრაქტიკულად გამოყენების“ ფაზა) 🛠️
შემდეგ თქვენ მას ადაპტირებთ ერთი ან რამდენიმე შემდეგი მეთოდის გამოყენებით:
-
მინიშნება (ინსტრუქციები მარტივი ენით)
-
ინსტრუქციის რეგულირება (ინსტრუქციების შესრულებისთვის მისი სწავლება) ( ვეი და სხვ., 2021 )
-
დახვეწა (თქვენი დომენის მონაცემების ტრენინგი)
-
LoRA / ადაპტერები (მსუბუქი რეგულირების მეთოდები) ( ჰუ და სხვ., 2021 )
-
RAG (აღდგენით-გაფართოებული თაობა - მოდელი ეყრდნობა თქვენს დოკუმენტებს) ( ლუისი და სხვ., 2020 )
-
ხელსაწყოების გამოყენება (ფუნქციების გამოძახება, შიდა სისტემების დათვალიერება და ა.შ.)
სწორედ ამიტომ შეუძლია იგივე საბაზისო მოდელს რომანტიკული სცენის დაწერა... შემდეგ კი ხუთი წამის შემდეგ SQL მოთხოვნის გამართვაში დახმარება 😭
5) რა ხდის საძირკვლის მოდელის კარგ ვერსიას? ✅
ეს ის მონაკვეთია, რომელსაც ადამიანები გამოტოვებენ და შემდეგ ნანობენ.
„კარგი“ საძირკვლის მოდელი მხოლოდ „უფრო დიდი“ არ არის. უფრო დიდი ზომა, რა თქმა უნდა, ეხმარება... მაგრამ ეს ერთადერთი არ არის. საძირკვლის მოდელის კარგ ვერსიას, როგორც წესი, აქვს:
ძლიერი განზოგადება 🧠
ის კარგად ასრულებს მრავალ დავალებას, კონკრეტული დავალების გადამზადების საჭიროების გარეშე ( ბომასანი და სხვ., 2021 ).
საჭე და მართვადობა 🎛️
მას შეუძლია საიმედოდ დაიცვას ინსტრუქციები, როგორიცაა:
-
„იყავი ლაკონური“
-
„გამოიყენეთ პუნქტები“
-
„მეგობრული ტონით დაწერე“
-
„არ გაამჟღავნოთ კონფიდენციალური ინფორმაცია“
ზოგიერთი მოდელი ელეგანტურია, მაგრამ სრიალა. როგორც შხაპის ქვეშ საპნის ნაჭრის დაჭერა. სასარგებლოა, მაგრამ არასტაბილურია 😅
ჰალუცინაციების დაბალი ტენდენცია (ან სულ მცირე გულწრფელი გაურკვევლობა) 🧯
არცერთი მოდელი არ არის დაზღვეული ჰალუცინაციებისგან, მაგრამ კარგი მოდელები:
-
ნაკლებად ჰალუცინაციები
-
უფრო ხშირად აღიარეთ გაურკვევლობა
-
მოძიების გამოყენებისას მიაწოდეთ ინფორმაცია კონტექსტს უფრო ახლოს ( ჯი და სხვ., 2023 , ლუისი და სხვ., 2020 )
კარგი მულტიმოდალური უნარები (საჭიროების შემთხვევაში) 🖼️🎧
თუ თქვენ ქმნით ასისტენტებს, რომლებიც კითხულობენ სურათებს, განმარტავენ დიაგრამებს ან ესმით აუდიოს, მულტიმოდალურობას დიდი მნიშვნელობა აქვს ( Radford et al., 2021 ).
ეფექტური დასკვნა ⚡
შეყოვნებას და ფასს მნიშვნელობა აქვს. ძლიერი, მაგრამ ნელი მოდელი სპორტულ მანქანას ჰგავს, რომელსაც საბურავი გაუსკდა.
უსაფრთხოებისა და თანასწორობის ქცევა 🧩
არა მხოლოდ „ყველაფერზე უარის თქმა“, არამედ:
-
მოერიდეთ მავნე ინსტრუქციებს
-
მიკერძოების შემცირება
-
მგრძნობიარე თემებს სიფრთხილით მოეპყარით
-
წინააღმდეგობა გაუწიეთ ჯეილბრეიკის ძირითად მცდელობებს (გარკვეულწილად...) ( NIST AI RMF 1.0 , NIST Generative AI Profile )
დოკუმენტაცია + ეკოსისტემა 🌱
ეს მშრალად ჟღერს, მაგრამ სინამდვილეში ასეა:
-
ხელსაწყოები
-
შეფასების აღკაზმულობა
-
განლაგების ვარიანტები
-
საწარმოს კონტროლი
-
დახვეწის მხარდაჭერა
დიახ, „ეკოსისტემა“ ბუნდოვანი სიტყვაა. მეც მძულს. მაგრამ მას მნიშვნელობა აქვს.
6) შედარების ცხრილი - საძირკვლის მოდელის გავრცელებული ვარიანტები (და რისთვის არიან ისინი კარგი) 🧾
ქვემოთ მოცემულია პრაქტიკული, ოდნავ არასრულყოფილი შედარებითი ცხრილი. ეს არ არის „ერთადერთი ჭეშმარიტი სია“, უფრო მეტად ის ჰგავს: რას ირჩევენ ადამიანები ველურ ბუნებაში.
| ინსტრუმენტის / მოდელის ტიპი | აუდიტორია | ფასის მსგავსი | რატომ მუშაობს |
|---|---|---|---|
| საკუთრების სამართლის მაგისტრი (ჩატის სტილი) | გუნდები, რომლებიც სიჩქარეს და დახვეწილობას ეძებენ | გამოყენებაზე დაფუძნებული / გამოწერაზე დაფუძნებული | შესანიშნავი ინსტრუქციის შესრულება, ძლიერი ზოგადი შესრულება, როგორც წესი, საუკეთესოა "ყუთიდან ამოღებისთანავე" 😌 |
| ღია წონის LLM (თვითმასპინძლობადი) | მშენებლები, რომლებსაც სურთ კონტროლი | ინფრასტრუქტურის ხარჯები (და თავის ტკივილი) | პერსონალიზებადი, კონფიდენციალურობაზე ორიენტირებული, ლოკალურად გაშვებული... თუ შუაღამისას მანიპულირება გიყვართ |
| დიფუზიური გამოსახულების გენერატორი | კრეატივები, დიზაინის გუნდები | უფასოდან ფასიანამდე | შესანიშნავი გამოსახულების სინთეზი, სტილის მრავალფეროვნება, განმეორებითი სამუშაო პროცესები (ასევე: თითები შეიძლება არ იყოს აწეული) ✋😬 ( ჰო და სხვ., 2020 , რომბახი და სხვ., 2021 ) |
| მულტიმოდალური „ხედვის ენის“ მოდელი | აპლიკაციები, რომლებიც კითხულობენ სურათებს + ტექსტს | გამოყენებაზე დაფუძნებული | საშუალებას გაძლევთ დასვათ კითხვები სურათების, ეკრანის ანაბეჭდების, დიაგრამების შესახებ - გასაკვირი მოსახერხებელია ( რადფორდი და სხვ., 2021 ) |
| ჩასაშენებელი საძირკვლის მოდელი | ძიება + RAG სისტემები | დაბალი ღირებულება თითო ზარზე | ტექსტს ვექტორებად გარდაქმნის სემანტიკური ძიების, კლასტერიზაციის, რეკომენდაციისთვის - მშვიდი MVP ენერგია ( კარპუხინი და სხვ., 2020 , დუზი და სხვ., 2024 ) |
| მეტყველების ტექსტად გარდაქმნის საბაზისო მოდელი | ქოლ-ცენტრები, შემქმნელები | გამოყენებაზე დაფუძნებული / ადგილობრივი | სწრაფი ტრანსკრიფცია, მრავალენოვანი მხარდაჭერა, საკმარისად კარგია ხმაურიანი აუდიოსთვის (ჩვეულებრივ) 🎙️ ( ჩურჩული ) |
| ტექსტიდან მეტყველებამდე გარდაქმნის საბაზისო მოდელი | პროდუქტის გუნდები, მედია | გამოყენებაზე დაფუძნებული | ბუნებრივი ხმის გენერაცია, ხმის სტილები, თხრობა - შეიძლება საშინლად რეალური გახდეს ( შენი და სხვ., 2017 ) |
| კოდზე ორიენტირებული LLM | დეველოპერები | გამოყენებაზე დაფუძნებული / გამოწერაზე დაფუძნებული | კოდის შაბლონებში, გამართვაში, რეფაქტორებში უკეთესია... თუმცა, მაინც არ არის გონების წამკითხველი 😅 |
ყურადღება მიაქციეთ, რომ „საბაზისო მოდელი“ მხოლოდ „ჩატბოტს“ არ ნიშნავს. ჩაშენებული და მეტყველების მოდელებიც შეიძლება საბაზისო იყოს, რადგან ისინი ფართოა და მრავალ დავალებაზეა დამოკიდებული ( ბომასანი და სხვ., 2021 , NIST ).
7) უფრო ახლოს: როგორ სწავლობენ ენის საფუძვლების მოდელები (Vibe ვერსია) 🧠🧃
ენის საფუძვლების მოდელები (რომლებსაც ხშირად LLM-ებს უწოდებენ) როგორც წესი, ტექსტის უზარმაზარ კოლექციებზე ივარჯიშება. ისინი ტოკენების პროგნოზირებით სწავლობენ ( ბრაუნი და სხვ., 2020 ). სულ ესაა. საიდუმლო არ არის.
მაგრამ მაგია იმაში მდგომარეობს, რომ ტოკენების პროგნოზირება მოდელს აიძულებს, ისწავლოს სტრუქტურა ( CSET ):
-
გრამატიკა და სინტაქსი
-
თემატური ურთიერთობები
-
მსჯელობის მსგავსი ნიმუშები (ზოგჯერ)
-
აზროვნების საერთო თანმიმდევრობა
-
როგორ ხსნიან ადამიანები საგნებს, კამათობენ, ბოდიშს იხდიან, აწარმოებენ მოლაპარაკებებს, ასწავლიან
ეს ჰგავს მილიონობით საუბრის იმიტაციის სწავლას ადამიანების „გაგების“ გარეშე. როგორც ჩანს, ეს არ უნდა მუშაობდეს... და მაინც, ის მაინც მუშაობს.
ერთი მცირედი გადაჭარბება: ეს ძირითადად ადამიანის ნაწერის გიგანტურ ალბათურ ტვინში ჩატენვას ჰგავს.
თუმცა, ეს მეტაფორა ცოტა დაწყევლილია. მაგრამ ჩვენ გადავდივართ 😄
8) უფრო ახლოს: დიფუზიური მოდელები (რატომ მუშაობს სურათები განსხვავებულად) 🎨🌀
გამოსახულების საძირკვლის მოდელები ხშირად იყენებენ დიფუზიის მეთოდებს ( Ho et al., 2020 , Rombach et al., 2021 ).
უხეში იდეა:
-
დაამატეთ ხმაური სურათებს მანამ, სანამ ისინი ფაქტობრივად ტელევიზორის სტატიკურ იერს არ მიიღებენ
-
მოდელის გაწვრთნა ხმაურის ეტაპობრივად შესაცვლელად
-
გენერაციის დროს, დაიწყეთ ხმაურით და „გაანადგურეთ“ გამოსახულება ინსტრუქციის მიხედვით ( Ho et al., 2020 )
სწორედ ამიტომ, სურათის გენერირება ფოტოს „განვითარებას“ ჰგავს, გარდა იმისა, რომ ფოტოზე სუპერმარკეტის დერეფანში სპორტული ფეხსაცმელი აცვია დრაკონს 🛒🐉
დიფუზიური მოდელები კარგია, რადგან:
-
ისინი ქმნიან მაღალი ხარისხის ვიზუალურ მასალას
-
მათ შეუძლიათ ტექსტით მკაცრად იხელმძღვანელონ
-
ისინი მხარს უჭერენ იტერაციულ დახვეწას (ვარიაციები, შეღებვა, მასშტაბირება) ( რომბახი და სხვ., 2021 )
მათ ასევე ზოგჯერ უჭირთ:
-
ტექსტის რენდერინგი სურათებში
-
დახვეწილი ანატომიის დეტალები
-
პერსონაჟის თანმიმდევრული იდენტობა სცენებში (ის უმჯობესდება, მაგრამ მაინც)
9) უფრო ახლოს: მულტიმოდალური საძირკვლის მოდელები (ტექსტი + სურათები + აუდიო) 👀🎧📝
მულტიმოდალური საბაზისო მოდელების მიზანია მრავალი მონაცემთა ტიპის გაგება და გენერირება:
-
ტექსტი
-
სურათები
-
აუდიო
-
ვიდეო
-
ზოგჯერ სენსორის მსგავსი შეყვანები ( NIST Generative AI Profile )
რატომ არის ეს მნიშვნელოვანი რეალურ ცხოვრებაში:
-
მომხმარებელთა მხარდაჭერას შეუძლია ეკრანის ანაბეჭდების ინტერპრეტაცია
-
ხელმისაწვდომობის ხელსაწყოებს შეუძლიათ სურათების აღწერა
-
საგანმანათლებლო აპლიკაციებს შეუძლიათ დიაგრამების ახსნა
-
შემქმნელებს შეუძლიათ ფორმატების სწრაფად რემიქსირება
-
ბიზნეს ინსტრუმენტებს შეუძლიათ დაფის ეკრანის ანაბეჭდის „წაკითხვა“ და მისი შეჯამება
ფარულად, მულტიმოდალური სისტემები ხშირად ასწორებენ წარმოდგენებს:
-
სურათის ჩანერგვად გადაქცევა
-
ტექსტის ჩასმულ ელემენტებად გადაქცევა
-
ისწავლეთ საერთო სივრცე, სადაც „კატა“ კატის პიქსელებს შეესაბამება 😺 ( რადფორდი და სხვ., 2021 )
ყოველთვის ელეგანტური არ არის. ზოგჯერ საბანივით არის შეკერილი. მაგრამ მუშაობს.
10) დახვეწა vs პროფკავშირი vs RAG (როგორ ადაპტირდება საბაზისო მოდელი) 🧰
თუ კონკრეტული სფეროსთვის (იურიდიული, სამედიცინო, მომხმარებელთა მომსახურება, შიდა ცოდნა) საბაზისო მოდელის პრაქტიკული გამოყენებას ცდილობთ, რამდენიმე ბერკეტი გაქვთ:
წახალისება 🗣️
ყველაზე სწრაფი და მარტივი.
-
დადებითი: ნულოვანი ტრენინგი, მყისიერი იტერაცია
-
უარყოფითი მხარეები: შეიძლება იყოს არათანმიმდევრული, კონტექსტის შეზღუდვები, იწვევს მყიფეობას
დახვეწა 🎯
მოდელის შემდგომი გაწვრთნა თქვენს მაგალითებზე.
-
დადებითი: უფრო თანმიმდევრული ქცევა, უკეთესი დომენის ენა, შეუძლია შეამციროს მოთხოვნის ხანგრძლივობა
-
უარყოფითი მხარეები: ღირებულება, მონაცემთა ხარისხის მოთხოვნები, გადატვირთვის რისკი, ტექნიკური მომსახურება
მსუბუქი ტიუნინგი (LoRA / ადაპტერები) 🧩
დახვეწის უფრო ეფექტური ვერსია ( ჰუ და სხვ., 2021 ).
-
დადებითი: იაფი, მოდულური, უფრო ადვილი ჩანაცვლება
-
უარყოფითი მხარეები: ჯერ კიდევ საჭიროებს ტრენინგების სერიას და შეფასებას
RAG (აღდგენით-გაფართოებული თაობა) 🔎
მოდელი თქვენი ცოდნის ბაზიდან იღებს შესაბამის დოკუმენტებს და მათ გამოყენებით პასუხობს ( ლუისი და სხვ., 2020 ).
-
დადებითი მხარეები: განახლებული ცოდნა, ციტირებები შიდა წყაროებიდან (თუ მას დანერგავთ), ნაკლები გადამზადება
-
უარყოფითი მხარეები: მოძიების ხარისხს შეუძლია გადამწყვეტი როლი ითამაშოს ან გააფუჭოს, საჭიროებს კარგ დაყოფას + ჩასმას
რეალური საუბარი: ბევრი წარმატებული სისტემა აერთიანებს სიგნალის გამოძახებას + RAG-ს. დახვეწა ეფექტურია, მაგრამ ყოველთვის აუცილებელი არ არის. ხალხი ძალიან სწრაფად იწყებს ამაზე მუშაობას, რადგან შთამბეჭდავად ჟღერს 😅
11) რისკები, შეზღუდვები და „გთხოვთ, ბრმად ნუ გამოიყენებთ ამას“ განყოფილება 🧯😬
საძირკვლის მოდელები ძლიერია, მაგრამ ისინი ტრადიციული პროგრამული უზრუნველყოფის მსგავსად სტაბილური არ არის. ისინი უფრო ჰგავს… ნიჭიერ სტაჟიორს თავდაჯერებულობის პრობლემის მქონე.
დაგეგმვის ძირითადი შეზღუდვები:
ჰალუცინაციები 🌀
მოდელებს შეუძლიათ გამოიგონონ:
-
ყალბი წყაროები
-
არასწორი ფაქტები
-
დამაჯერებელი, მაგრამ არასწორი ნაბიჯები ( ჯი და სხვ., 2023 )
შემამსუბუქებელი ზომები:
-
დასაბუთებული კონტექსტით RAG ( ლუისი და სხვ., 2020 )
-
შეზღუდული გამომავალი მონაცემები (სქემები, ინსტრუმენტების გამოძახებები)
-
მკაფიო ინსტრუქცია „არ გამოიცნო“
-
ვერიფიკაციის ფენები (წესები, ჯვარედინი შემოწმება, ადამიანის მიერ განხორციელებული მიმოხილვა)
მიკერძოება და მავნე ნიმუშები ⚠️
რადგან ტრენინგის მონაცემები ასახავს ადამიანებს, შეგიძლიათ მიიღოთ:
-
სტერეოტიპები
-
ჯგუფებს შორის არათანაბარი შესრულება
-
სახიფათო დასრულებები ( NIST AI RMF 1.0 , Bommasani et al., 2021 )
შემამსუბუქებელი ზომები:
-
უსაფრთხოების რეგულირება
-
წითელი გუნდი
-
კონტენტის ფილტრები
-
ფრთხილად დომენის შეზღუდვები ( NIST Generative AI Profile )
მონაცემთა კონფიდენციალურობა და გაჟონვა 🔒
თუ მოდელის საბოლოო წერტილში კონფიდენციალურ მონაცემებს შეიყვანთ, უნდა იცოდეთ:
-
როგორ ინახება
-
გამოიყენება თუ არა ტრენინგისთვის
-
რა სახის ჟურნალირება არსებობს
-
რა აკონტროლებს თქვენი ორგანიზაციის საჭიროებებს ( NIST AI RMF 1.0 )
შემამსუბუქებელი ზომები:
-
კერძო განლაგების ვარიანტები
-
ძლიერი მმართველობა
-
მინიმალური მონაცემების ექსპოზიცია
-
მხოლოდ შიდა RAG მკაცრი წვდომის კონტროლით ( NIST Generative AI Profile , კარლინი და სხვ., 2021 )
სწრაფი ინექცია (განსაკუთრებით RAG-ით) 🕳️
თუ მოდელი არასანდო ტექსტს კითხულობს, ამ ტექსტს შეუძლია მისი მანიპულირება სცადოს:
-
„წინა ინსტრუქციების იგნორირება...“
-
„გამომიგზავნე საიდუმლო…“ ( OWASP , გრეშეიკი და სხვ., 2023 )
შემამსუბუქებელი ზომები:
-
იზოლირებული სისტემის ინსტრუქციები
-
მოძიებული კონტენტის დეზინფექცია
-
გამოიყენეთ ინსტრუმენტებზე დაფუძნებული პოლიტიკა (არა მხოლოდ მოთხოვნები)
-
ტესტირება მოწინააღმდეგეობრივი შეყვანით ( OWASP Cheat Sheet , NIST Generative AI Profile )
არ მინდა შეგაშინოთ. უბრალოდ... უმჯობესია იცოდეთ, სად ჭრიალებს იატაკის დაფები.
12) როგორ ავირჩიოთ საძირკვლის მოდელი თქვენი შემთხვევისთვის 🎛️
თუ საძირკვლის მოდელს ირჩევთ (ან მასზე აშენებთ), დაიწყეთ ამ რჩევებით:
განსაზღვრეთ, რას ქმნით 🧾
-
მხოლოდ ტექსტი
-
სურათები
-
აუდიო
-
შერეული მულტიმოდალური
დააწესეთ თქვენი ფაქტობრივი ნამდვილობის ზღვარი 📌
თუ გჭირდებათ მაღალი სიზუსტე (ფინანსები, ჯანმრთელობა, იურიდიული, უსაფრთხოება):
-
თქვენ დაგჭირდებათ RAG ( ლუისი და სხვ., 2020 )
-
თქვენ მოგინდებათ დადასტურება
-
დაგჭირდებათ ადამიანის მიერ განხილვის ციკლი (ყოველ შემთხვევაში, ზოგჯერ) ( NIST AI RMF 1.0 )
გადაწყვიტეთ თქვენი შეყოვნების სამიზნე ⚡
ჩატი მყისიერია. პაკეტური შეჯამება შეიძლება უფრო ნელი იყოს.
თუ მყისიერი პასუხი გჭირდებათ, მოდელის ზომას და ჰოსტინგს მნიშვნელობა აქვს.
რუკის კონფიდენციალურობისა და შესაბამისობის მოთხოვნები 🔐
ზოგიერთ გუნდს სჭირდება:
-
ადგილზე / VPC განლაგება
-
მონაცემთა შენახვის გარეშე
-
მკაცრი აუდიტის ჟურნალები
-
წვდომის კონტროლი თითო დოკუმენტზე ( NIST AI RMF 1.0 , NIST Generative AI Profile )
დაბალანსებული ბიუჯეტი - და მოთმინება 😅
თვითჰოსტინგი კონტროლს იძლევა, მაგრამ სირთულეს ზრდის.
მართული API-ები მარტივია, მაგრამ შეიძლება ძვირი და ნაკლებად მორგებადი იყოს.
პატარა პრაქტიკული რჩევა: ჯერ მარტივი რამით შექმენით პროტოტიპი, შემდეგ კი გამკაცრეთ. „იდეალური“ კონფიგურაციით დაწყება, როგორც წესი, ყველაფერს ანელებს.
13) რა არის გენერაციულ ხელოვნურ ინტელექტში საბაზისო მოდელები? (სწრაფი გონებრივი მოდელი) 🧠✨
მოდით, ისევ თემას დავუბრუნდეთ. რა არის ფუნდამენტური მოდელები გენერაციულ ხელოვნურ ინტელექტში?
ისინი არიან:
-
ფართო მონაცემებზე გაწვრთნილი დიდი, ზოგადი მოდელები ( NIST , სტენფორდის CRFM )
-
კონტენტის (ტექსტი, სურათები, აუდიო და ა.შ.) გენერირების უნარი ( NIST Generative AI Profile )
-
ადაპტირებადია მრავალ დავალებასთან მინიშნებების, დახვეწის და აღდგენის გზით ( ბომასანი და სხვ., 2021 )
-
საბაზისო ფენა, რომელიც კვებავს თანამედროვე გენერაციული ხელოვნური ინტელექტის პროდუქტების უმეტესობას
ისინი არ წარმოადგენენ ერთ კონკრეტულ არქიტექტურას ან ბრენდს. ისინი წარმოადგენენ მოდელების კატეგორიას, რომლებიც პლატფორმის მსგავსად იქცევიან.
საძირკვლის მოდელი ნაკლებად ჰგავს კალკულატორს და უფრო მეტად სამზარეულოს. მასში შეგიძლიათ ბევრი კერძის მომზადება. თუ ყურადღებას არ აქცევთ, შეგიძლიათ ტოსტიც შეწვათ... თუმცა სამზარეულო მაინც საკმაოდ მოსახერხებელია 🍳🔥
14) შეჯამება და წასაღებად ✅🙂
საბაზისო მოდელები გენერაციული ხელოვნური ინტელექტის მრავალჯერადი გამოყენების ძრავებია. ისინი ფართოდ ივარჯიშება, შემდეგ კი კონკრეტულ ამოცანებზე ადაპტირდება მოთხოვნის, დახვეწის და აღდგენის გზით ( NIST , Stanford CRFM ). ისინი შეიძლება იყვნენ საოცარი, მოუწესრიგებელი, ძლიერი და ზოგჯერ სასაცილოც - ერთდროულად.
რეზიუმე:
-
საძირკვლის მოდელი = ზოგადი დანიშნულების საბაზისო მოდელი ( NIST )
-
გენერაციული ხელოვნური ინტელექტი = კონტენტის შექმნა და არა მხოლოდ კლასიფიკაცია ( NIST-ის გენერაციული ხელოვნური ინტელექტის პროფილი )
-
ადაპტაციის მეთოდები (დაწინაურება, RAG, რეგულირება) მას პრაქტიკულს ხდის ( ლუისი და სხვ., 2020 , ჰუ და სხვ., 2021 )
-
მოდელის არჩევა კომპრომისებს მოიცავს: სიზუსტე, ღირებულება, შეყოვნება, კონფიდენციალურობა, უსაფრთხოება ( NIST AI RMF 1.0 )
თუ რამეს გენერაციული ხელოვნური ინტელექტით აშენებთ, საძირკვლის მოდელების გაგება არჩევითი არ არის. შენობა მთელ სართულზე დგას... და კი, ზოგჯერ იატაკი ცოტათი ირყევა 😅
ხშირად დასმული კითხვები
საძირკვლის მოდელები, მარტივად რომ ვთქვათ
საბაზისო მოდელი არის დიდი, ზოგადი დანიშნულების ხელოვნური ინტელექტის მოდელი, რომელიც გაწვრთნილია ფართო მონაცემებზე, ამიტომ მისი ხელახლა გამოყენება შესაძლებელია მრავალი ამოცანისთვის. თითოეული დავალების შესრულებისას ერთი მოდელის შექმნის ნაცვლად, თქვენ იწყებთ ძლიერი „საბაზისო“ მოდელით და საჭიროებისამებრ ადაპტირდებით. ეს ადაპტაცია ხშირად ხდება მოთხოვნის, დახვეწის, მოძიების (RAG) ან ინსტრუმენტების მეშვეობით. ცენტრალური იდეაა სიგანე პლუს მართვადობა.
რით განსხვავდება საძირკვლის მოდელები ტრადიციული დავალებებზე ორიენტირებული ხელოვნური ინტელექტის მოდელებისგან
ტრადიციული ხელოვნური ინტელექტი ხშირად თითოეული დავალებისთვის ცალკე მოდელს ავარჯიშებს, მაგალითად, განწყობის ანალიზისთვის ან თარგმნისთვის. საბაზისო მოდელები ამ ნიმუშს ინვერსიულად ახორციელებენ: წინასწარ ავარჯიშებენ ერთხელ, შემდეგ კი ხელახლა გამოიყენებენ მრავალ ფუნქციასა და პროდუქტში. ამან შეიძლება შეამციროს დუბლირებული ძალისხმევა და დააჩქაროს ახალი შესაძლებლობების მიწოდება. კომპრომისი ის არის, რომ ისინი შეიძლება ნაკლებად პროგნოზირებადი იყვნენ, ვიდრე კლასიკური პროგრამული უზრუნველყოფა, თუ არ დაამატებთ შეზღუდვებს და ტესტირებას.
გენერაციულ ხელოვნურ ინტელექტში ფუნდამენტური მოდელები
გენერაციულ ხელოვნურ ინტელექტში, საბაზისო მოდელები წარმოადგენს საბაზისო სისტემებს, რომლებსაც შეუძლიათ ახალი კონტენტის, როგორიცაა ტექსტი, სურათები, აუდიო, კოდი ან მულტიმოდალური გამომავალი, წარმოება. ისინი არ შემოიფარგლებიან მხოლოდ მარკირებით ან კლასიფიკაციით; ისინი წარმოქმნიან პასუხებს, რომლებიც ადამიანის მიერ შექმნილ ნამუშევარს წააგავს. რადგან ისინი წინასწარი ტრენინგის დროს სწავლობენ ფართო ნიმუშებს, მათ შეუძლიათ მრავალი ტიპისა და ფორმატის დამუშავება. ისინი წარმოადგენენ „საბაზისო ფენას“, რომელიც თანამედროვე გენერაციული გამოცდილების უმეტესობის უკან დგას.
როგორ სწავლობენ საბაზისო მოდელები წინასწარი ტრენინგის დროს
ენის საფუძვლების მოდელების უმეტესობა სწავლობს ისეთი ნიშნების პროგნოზირებით, როგორიცაა შემდეგი სიტყვა ან ტექსტში გამოტოვებული სიტყვები. ეს მარტივი მიზანი მათ უბიძგებს, აითვისონ ისეთი სტრუქტურა, როგორიცაა გრამატიკა, სტილი და ახსნის საერთო ნიმუშები. მათ ასევე შეუძლიათ დიდი რაოდენობით მსოფლიო ცოდნის ათვისება, თუმცა ყოველთვის არა საიმედოდ. შედეგად მიიღება ძლიერი ზოგადი წარმოდგენა, რომლის მიმართვაც მოგვიანებით კონკრეტული სამუშაოსკენ შეგიძლიათ.
განსხვავება სტიმულირებას, დახვეწას, LoRA-სა და RAG-ს შორის
ინსტრუქციების გამოყენებით ქცევის წარმართვის ყველაზე სწრაფი გზა ინსტრუქციების გამოყენებაა, თუმცა, ის შეიძლება არასტაბილური იყოს. დახვეწილი რეგულირება თქვენს მაგალითებზე მოდელს უფრო თანმიმდევრული ქცევისთვის ამზადებს, თუმცა ეს ხარჯებსა და მოვლა-პატრონობას ზრდის. LoRA/ადაპტერები უფრო მსუბუქი დახვეწილი რეგულირების მიდგომაა, რომელიც ხშირად უფრო იაფი და მოდულურია. RAG შესაბამის დოკუმენტებს იღებს და მოდელის პასუხს ამ კონტექსტის გამოყენებით იღებს, რაც სიახლესა და დაფუძნებას უწყობს ხელს.
როდის გამოვიყენოთ RAG დახვეწის ნაცვლად
RAG ხშირად კარგი არჩევანია, როდესაც გჭირდებათ პასუხები, რომლებიც დაფუძნებულია თქვენს მიმდინარე დოკუმენტებზე ან შიდა ცოდნის ბაზაზე. მას შეუძლია შეამციროს „გამოცნობა“ მოდელს შესაბამისი კონტექსტით მიწოდებით გენერირების დროს. დახვეწა უკეთესად შეეფერება, როდესაც გჭირდებათ თანმიმდევრული სტილი, დომენის ფრაზირება ან ქცევა, რომლის სანდოდ შექმნაც მოთხოვნას არ შეუძლია. ბევრი პრაქტიკული სისტემა აერთიანებს მოთხოვნას + RAG-ს, სანამ დახვეწას მიმართავს.
როგორ შევამციროთ ჰალუცინაციები და მივიღოთ უფრო სანდო პასუხები
გავრცელებული მიდგომაა მოდელის დაფუძნება მოძიებით (RAG) ისე, რომ ის მიახლოებული იყოს მოწოდებულ კონტექსტთან. ასევე შეგიძლიათ შეზღუდოთ გამომავალი სიგნალები სქემებით, მოითხოვოთ ინსტრუმენტების გამოძახება ძირითადი ნაბიჯებისთვის და დაამატოთ აშკარა „არ გამოიცნოთ“ ინსტრუქციები. ვერიფიკაციის ფენებსაც აქვს მნიშვნელობა, როგორიცაა წესების შემოწმება, ჯვარედინი შემოწმება და ადამიანის მიერ განხორციელებული მიმოხილვა უფრო მაღალი რისკის მქონე გამოყენების შემთხვევებისთვის. მოდელს მოეპყარით, როგორც ალბათურ დამხმარეს და არა როგორც სიმართლის წყაროს, ნაგულისხმევად.
წარმოებაში საძირკვლის მოდელების ყველაზე დიდი რისკები
გავრცელებული რისკებია ჰალუცინაციები, სასწავლო მონაცემებიდან მიკერძოებული ან მავნე ნიმუშები და კონფიდენციალურობის გაჟონვა, თუ მგრძნობიარე მონაცემები არასწორად დამუშავდება. სისტემები ასევე შეიძლება დაუცველი იყოს სწრაფი ინექციის მიმართ, განსაკუთრებით მაშინ, როდესაც მოდელი კითხულობს არასანდო ტექსტს დოკუმენტებიდან ან ვებ კონტენტიდან. შემარბილებელი ღონისძიებები, როგორც წესი, მოიცავს მართვას, წითელ გუნდურობას, წვდომის კონტროლს, უფრო უსაფრთხო სწრაფი სიგნალების ნიმუშებს და სტრუქტურირებულ შეფასებას. დაგეგმეთ ეს რისკები ადრე, ვიდრე მოგვიანებით შეავსეთ.
სწრაფი ინექცია და რატომ არის ის მნიშვნელოვანი RAG სისტემებში
სწრაფი ინექცია ხდება მაშინ, როდესაც არასანდო ტექსტი ცდილობს ინსტრუქციების გადაფარვას, როგორიცაა „წინა ინსტრუქციების იგნორირება“ ან „საიდუმლოებების გამჟღავნება“. RAG-ში მოძიებული დოკუმენტები შეიძლება შეიცავდეს ამ მავნე ინსტრუქციებს და მოდელმა შეიძლება მიჰყვეს მათ, თუ ფრთხილად არ იქნებით. გავრცელებული მიდგომაა სისტემის ინსტრუქციების იზოლირება, მოძიებული შინაარსის დეზინფექცია და ინსტრუმენტებზე დაფუძნებულ პოლიტიკაზე დაყრდნობა და არა მხოლოდ მოთხოვნებზე. მოწინააღმდეგე შეყვანებით ტესტირება ხელს უწყობს სუსტი წერტილების გამოვლენას.
როგორ ავირჩიოთ საძირკვლის მოდელი თქვენი შემთხვევისთვის
დაიწყეთ იმის განსაზღვრით, თუ რა უნდა შექმნათ: ტექსტი, სურათები, აუდიო, კოდი ან მულტიმოდალური გამომავალი მონაცემები. შემდეგ დააყენეთ ფაქტობრივი სიზუსტის ზღვარი - მაღალი სიზუსტის დომენებს ხშირად სჭირდებათ დამიწება (RAG), ვალიდაცია და ზოგჯერ ადამიანის მიერ შემოწმება. გაითვალისწინეთ შეყოვნება და ღირებულება, რადგან ძლიერი, ნელი ან ძვირადღირებული მოდელის გამოყენება შეიძლება რთული იყოს. დაბოლოს, რუკის კონფიდენციალურობა და შესაბამისობა საჭიროა განლაგების ვარიანტებისა და კონტროლისთვის.
ცნობები
-
სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტი (NIST) - საძირკვლის მოდელი (ტერმინთა განმარტებითი ლექსიკონი) - csrc.nist.gov
-
სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტი (NIST) - NIST AI 600-1: გენერაციული ხელოვნური ინტელექტის პროფილი - nvlpubs.nist.gov
-
სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტი (NIST) - NIST AI 100-1: ხელოვნური ინტელექტის რისკების მართვის ჩარჩო (AI RMF 1.0) - nvlpubs.nist.gov
-
სტენფორდის საძირკვლის მოდელების კვლევის ცენტრი (CRFM) - ანგარიში - crfm.stanford.edu
-
arXiv - ფონდის მოდელების შესაძლებლობებისა და რისკების შესახებ (Bommasani et al., 2021) - arxiv.org
-
arXiv - ენობრივი მოდელები მცირერიცხოვანი შემსწავლელებია (ბრაუნი და სხვ., 2020) - arxiv.org
-
arXiv - ცოდნის ინტენსიური NLP ამოცანებისთვის გაძლიერებული მოძიების გენერაცია (ლუისი და სხვ., 2020) - arxiv.org
-
arXiv - LoRA: დიდი ენობრივი მოდელების დაბალი რანგის ადაპტაცია (Hu et al., 2021) - arxiv.org
-
arXiv - BERT: ენის გაგებისთვის ღრმა ორმხრივი ტრანსფორმატორების წინასწარი ტრენინგი (დევლინი და სხვ., 2018) - arxiv.org
-
arXiv - დახვეწილი ენობრივი მოდელები ნულოვანი შანსების მქონე შემსწავლელები არიან (ვეი და სხვ., 2021) - arxiv.org
-
ACM ციფრული ბიბლიოთეკა - ჰალუცინაციების კვლევა ბუნებრივი ენის გენერაციაში (ჯი და სხვ., 2023) - dl.acm.org
-
arXiv - ბუნებრივი ენის ზედამხედველობის გამოყენებით ტრანსფერული ვიზუალური მოდელების შესწავლა (რადფორდი და სხვ., 2021) - arxiv.org
-
arXiv - ხმაურის მოცილების დიფუზიური ალბათური მოდელები (Ho et al., 2020) - arxiv.org
-
arXiv - მაღალი გარჩევადობის გამოსახულების სინთეზი ლატენტური დიფუზიური მოდელებით (რომბახი და სხვ., 2021) - arxiv.org
-
arXiv - ღია დომენის კითხვებზე პასუხის გასაცემად მკვრივი პასაჟის მოძიება (კარპუხინი და სხვ., 2020) - arxiv.org
-
arXiv - ფაისის ბიბლიოთეკა (Douze et al., 2024) - arxiv.org
-
OpenAI - წარმოგიდგენთ Whisper-ს - openai.com
-
arXiv - ბუნებრივი TTS სინთეზი WaveNet-ის კონდიცირების გზით Mel სპექტროგრამის პროგნოზებზე (Shen et al., 2017) - arxiv.org
-
უსაფრთხოებისა და ახალი ტექნოლოგიების ცენტრი (CSET), ჯორჯტაუნის უნივერსიტეტი - შემდეგი სიტყვის პროგნოზირების გასაკვირი ძალა: დიდი ენობრივი მოდელების ახსნა (ნაწილი 1) - cset.georgetown.edu
-
USENIX - ტრენინგის მონაცემების ამოღება დიდი ენობრივი მოდელებიდან (კარლინი და სხვ., 2021) - usenix.org
-
OWASP - LLM01: სწრაფი ინექცია - genai.owasp.org
-
arXiv - თქვენს მიერ მოთხოვილზე მეტი: აპლიკაციაში ინტეგრირებული დიდი ენობრივი მოდელებისთვის ახალი პრომპ ინექციის საფრთხეების ყოვლისმომცველი ანალიზი (გრეშაკე და სხვ., 2023) - arxiv.org
-
OWASP-ის შაბლონების სერია - LLM-ის სწრაფი ინექციის პრევენციის შაბლონები - cheatsheetseries.owasp.org