Deepseek. Այն խանգարողը, որը հեղափոխում է AI լանդշաֆտը

Aipu Waton Group

Ներածություն

Շուկայական մասնաբաժնի համար մրցակցող մեծ մոդելների, ամպային պրովայդերների միջեւ շարունակական անհանգստություն, եւ աշխատասեր չիպերի արտադրողներ. Deepseek ազդեցությունը շարունակվում է:

Երբ գարնանային փառատոնը մոտենում է, խորը խորը հուզմունքը ուժեղ է մնում: Վերջին տոնը կարեւորեց տեխնոլոգիական արդյունաբերության մեջ մրցակցության զգալի զգացողությունը, շատ քննարկելով եւ վերլուծելով այս «կատվիկը»: Սիլիկոնային հովիտը զգում է աննախադեպ ճգնաժամի զգացողություն. Բաց աղբյուրի փաստաբանները կրկին բարձրաձայնում են իրենց կարծիքը, եւ նույնիսկ Openai- ն վերագնահատում է, արդյոք նրա փակ աղբյուրը լավագույն ընտրությունն է: Ավելի ցածր հաշվարկային ծախսերի նոր պարադիգմը շղթայական արձագանք է առաջացրել Նվիդիայի նման չիպային հսկաների շրջանում, ինչը հանգեցնում է առանձին շուկայի պատմության մեջ գրանցելու մեկօրյա շուկայական արժեքի կորուստներ, իսկ պետական ​​գերատեսչությունները ուսումնասիրում են Deepseek- ի կողմից օգտագործվող չիպերի համապատասխանությունը: Deepseek- ի խառնուրդի խառնված ակնարկների պայմաններում, հայրենիքում, այն արտառոց աճ է ապրում: R1 մոդելի գործարկումից հետո Associated ծրագիրը տեսել է երթեւեկության աճ, նշելով, որ դիմումի ոլորտներում աճը առաջ կուղարկի ընդհանուր AI էկոհամակարգը: Դրական կողմն այն է, որ Deepseek- ը կբարձրացնի դիմումի հնարավորությունները, առաջարկելով, որ ապագայում ապավինեն, ապագայում այնքան թանկ չի լինի: Այս տեղաշարժը արտացոլվել է Openai- ի վերջին գործողություններում, ներառյալ O3-Mini- ի պատճառաբանող մոդելի տրամադրումը անվճար օգտվողներին, ի պատասխան Deepseek R1- ի, ինչպես նաեւ հետագա արդիականացման: Արտասահմանցի շատ օգտվողներ շնորհակալություն հայտնեցին Deepseek- ին այս զարգացումների համար, չնայած այս մտածող շղթան ծառայում է որպես ամփոփում:

Լավատեսորեն, ակնհայտ է, որ Deepseek- ը միավորում է ներքին խաղացողներին: Դասընթացների ծախսերը նվազեցնելու համար `վերապատրաստման ծախսերը նվազեցնելու համար, տարբեր հոսանքների արտադրողներ, ամպրոպային ամպերի մատակարարներ եւ բազմաթիվ նորաստեղծներ ակտիվորեն միանում են էկոհամակարգին, ուժեղացնելով ծախսերի արդյունավետությունը Deepseek մոդելի օգտագործման համար: Deepseek- ի թերթերի խոսքով, V3 մոդելի ամբողջական դասընթացը պահանջում է ընդամենը 2,788 միլիոն H800 GPU ժամ, իսկ վերապատրաստման գործընթացը խիստ կայուն է: Moe (փորձագետների խառնուրդ) ճարտարապետությունը շատ կարեւոր է տասը գործոնով նախնական վերապատրաստման ծախսերը նվազեցնելու համար `համեմատած LLAMA 3-ի հետ, 405 միլիարդ պարամետրերով: Ներկայումս V3- ը հանրային ճանաչված առաջին մոդելն է, որը ցույց է տալիս այդպիսի բարձր սպառնալիքը Moe- ում: Բացի այդ, MLA- ն (բազմաշերտ ուշադրությունը) գործում է սիներգիստականորեն, մասնավորապես հիմնավոր ասպեկտների մեջ: «The Scarser The Moe, այնքան ավելի մեծ է խմբաքանակի չափը, որը անհրաժեշտ է հիմնավորեցման ընթացքում ամբողջությամբ օգտագործելու համար, Kvcache- ի չափը լինելու է հիմնական սահմանափակող գործոնը: Ընդհանուր առմամբ, Deepseek- ի հաջողությունը կայանում է տարբեր տեխնոլոգիաների համադրության մեջ, ոչ միայն մեկ: Արդյունաբերության ինսայդերները գովաբանում են Deepseek- ի թիմի ինժեներական հնարավորությունները, նշելով իրենց գերազանցությունը զուգահեռ դասընթացների եւ օպերատորի օպտիմիզացման մեջ, հասնելով ստորգետնյա արդյունքների: Deepseek- ի բաց կոդով մոտեցումը հետագայում վառեցնում է մեծ մոդելների ընդհանուր զարգացումը, եւ կանխատեսվում է, որ եթե նման մոդելները ընդլայնվեն պատկերների, տեսանյութերի եւ այլնի, դա էապես խթանում է արդյունաբերության ողջությունը:

Երրորդ կողմի հիմնավորման ծառայությունների հնարավորություններ

Տվյալները ցույց են տալիս, որ իր թողարկումից ի վեր խորենքը ընդամենը 21 օրվա ընթացքում կուտակվել է 22.15 միլիոն ամենօրյա ակտիվ օգտագործողներին (DAU), հասնելով Պրոտգտի օգտագործողի բազայի 41.6% -ը եւ գերազանցելով Doubao- ի 16.95 միլիոն ամենաարագ օգտագործողներին: Այնուամենայնիվ, մինչդեռ օգտվողները քշում էին քշում, կիբեր հաքերները անողոք հարձակվել են Deepseek ծրագրի վրա, զգալի լարվածություն առաջացնելով նրա սերվերների վրա: Արդյունաբերության վերլուծաբանները կարծում են, որ դա մասամբ պայմանավորված է Deepseek- ի տեղակայման քարտերի դասընթացների համար, միաժամանակ բացակայում է բավարար հաշվարկային ուժ: Արդյունաբերական Insider- ը տեղեկացրեց AI տեխնոլոգիաների վերանայում. Սա ներկայացնում է առեւտուր `կենտրոնանալով տեխնոլոգիայի դեմ, ընդդեմ արտադրության: Deepseek- ը մեծապես ապավինել է քվանտային քանակականացմանը ինքնամշակման համար, ստանալով քիչ արտաքին ֆինանսավորում, ինչը հանգեցնում է համեմատաբար ցածր դրամական միջոցների հոսքի ճնշմանը եւ մաքուր տեխնոլոգիական միջավայրին: Ներկայումս վերոհիշյալ խնդիրների ֆոնին որոշ օգտվողներ կոչ են անում խորը սոցիալական մեդիա, օգտագործողի հարմարավետությունը բարձրացնելու համար օգտագործողի հարմարավետությունը բարձրացնելու համար: Բացի այդ, մշակողները սկսել են օպտիմիզացման պաշտոնական API կամ երրորդ կողմի API- ն օգտագործել: Այնուամենայնիվ, վերջերս Deepseek- ի բաց պլատֆորմը հայտարարեց. «Ընթացիկ սերվերի ռեսուրսները սակավ են, եւ API ծառայության վերալիցքավորումը դադարեցվել է»:

 

Սա, անկասկած, ավելի շատ հնարավորություններ է բացում AI ենթակառուցվածքների ոլորտում երրորդ կողմի վաճառողների համար: Վերջերս ամպային եւ միջազգային բազմաթիվ ամպային հսկաներ սկսեցին Deepseek- ի մոդել Apis-overeas հսկաները Microsoft- ը եւ Amazon- ը առաջիններից էին, որոնք միացան հունվարի վերջին: Ներքին առաջնորդը, Huawei Cloud- ը, առաջին քայլը կատարեց, ազատելով Deepseek R1- ի եւ V3 պատճառաբանության մատուցումը փետրվարի 1-ին սիլիկոնային հոսքի հետ համագործակցությամբ: Մեծ երեք տեխնոլոգիական ընկերություններ-չղջիկ (Baidu, Alibaba, Tencent) եւ Bytedance - ը թողարկվել է նաեւ ցածր գնով, սահմանափակ ժամանակ առաջարկներ, որոնք սկսվում են վերջին տարվա ամպային վաճառողի գների գների մասին, որոնք բոցավառվել են Deepseek- ի V2 մոդելի գործարկման արդյունքում, որտեղ սկսեցին Deepseek- ը սկսել «գինը մսագործ»: Cloud Vendors- ի խելահեղ գործողությունները արձագանքում են Microsoft Azure- ի եւ Openai- ի միջեւ ավելի վաղ ուժեղ կապերը, որտեղ 2019-ին «Մայքրոսոֆթ» -ը զգալի $ 1 միլիարդ ներդրում է կատարել Openai- ում, այն բանից հետո, երբ Microsoft Azure EcoSystem- ը սկսեց մրցել իրենց մեծ մոդելների հետ: Այս դեպքում DEEPSEEK- ը ոչ միայն գերազանցել է զրպարտությունը արտադրանքի ջերմության առումով, բայց նաեւ ներմուծել է բաց կոդով մոդելներ O1 թողարկումից հետո, որը նման է Llama's GPT-3 վերածնունդը:

 

Իրականում, ամպային պրովայդերները նույնպես տեղադրում են որպես AI դիմումների ճանապարհային դարպասներ, այսինքն, մշակողների հետ կապերի խորացումը թարգմանվում է կանխարգելիչ առավելություններ: Հաշվետվություններում նշվում է, որ Baidu Smart Cloud- ն ունեցել է ավելի քան 15,000 հաճախորդ, որն օգտագործում է Deepseek մոդելը Qianfan պլատֆորմի միջոցով `մոդելի մեկնարկի օրը: Բացի այդ, մի քանի փոքր ֆիրմաներ առաջարկում են լուծումներ, ներառյալ սիլիկոնային հոսքը, Լուչեն տեխնոլոգիաները, Chuanjing տեխնոլոգիաները եւ AI ինֆրակազմների տարբեր ծառայություններ, որոնք սկսել են աջակցություն DEEPEEK մոդելների համար: AI Technology Review- ը իմացել է, որ խորը խորքային տեղակայման տեղակայման հնարավորությունները հիմնականում գոյություն ունեն երկու ոլորտներում. Մեկը օպտիմիզացնում է MoE մոդելի նոսրացման համար, օգտագործելով խառը պատճառաբանությամբ, որով զբաղվում է 671 միլիարդ պարամետրային մոդ մոդելը: Բացի այդ, MLA- ի օպտիմիզացումը կենսական նշանակություն ունի: Այնուամենայնիվ, Deepseek- ի երկու մոդելները դեռեւս բախվում են որոշ մարտահրավերների տեղակայման օպտիմիզացման հարցում: «Մոդելի չափի եւ բազմաթիվ պարամետրերի շնորհիվ օպտիմիզացումն իսկապես բարդ է, մասնավորապես տեղական տեղակայման համար, որտեղ կատարման եւ արժեքի միջեւ օպտիմալ հավասարակշռության հասնելը դժվար կլինի», - ասաց Chuanjing տեխնոլոգիայի հետազոտողը: Հիշողության կարողությունների սահմանները հաղթահարելու համար ամենակարեւոր խոչընդոտը: «Մենք ընդունում ենք տարասեռ համագործակցության եւ այլ հաշվարկային ռեսուրսների լիարժեք օգտագործման համար, տեղադրելով միայն նոսր MoE Matrix- ի ոչ համօգտագործված մասերը CPU / DRAM- ի վրա` բարձրորակ պրոցեսորի օպերատորներ օգտագործելու համար, մինչդեռ խիտ հատվածները մնում են: Զեկույցում նշվում է, որ Chuanjing- ի բաց աղբյուրի շրջանակը Ctransformers- ը հիմնականում ներարկում է տարբեր ռազմավարություններ եւ օպերատորներ բնօրինակ տրանսֆորմատորների ներդրման ձեւանմուշի միջոցով, զգալիորեն ուժեղացնելով այնպիսի մեթոդներ, օգտագործելով Cudagraph- ի նման մեթոդներ: Deepseek- ը հնարավորություն է տվել այս նորաստեղծների համար, քանի որ աճի նպաստներն ակնհայտ են դառնում. Բազմաթիվ ֆիրմաներ հայտնել են Հաճախորդների նկատելի աճը Deepseek API- ի գործարկումից հետո, ստանալով հարցումներ նախորդ հաճախորդներից, որոնք փնտրում են օպտիմալացումներ: Արդյունաբերության ինսայդերները նշել են. Ներկայումս պարզվում է, որ Deepseek- ը մոդելի եզրակացության կատարումն է դարձնում ավելի քննադատական, եւ մեծ մոդելների ավելի լայն ընդունմամբ, դա կշարունակի ազդել AI ինֆրակրատի արդյունաբերության զարգացման վրա: Եթե ​​խորը մակարդակի մոդելը կարող է տեղակայվել տեղում ցածր գնով, ապա դա մեծապես կօգնի կառավարությանը եւ ձեռնարկատիրական թվային փոխակերպման ջանքերին: Այնուամենայնիվ, մարտահրավերները շարունակվում են, քանի որ որոշ հաճախորդներ կարող են բարձր սպասումներ ունենալ մեծ մոդելի հնարավորությունների հետ կապված, այն ավելի ակնհայտ դարձնելով, որ իրականացման հավասարակշռման եւ արժեքը դառնում է կենսական նշանակություն: 

Գնահատել, թե Deepseek- ը ավելի լավ է, քան CHATGPT- ը, անհրաժեշտ է հասկանալ դրանց հիմնական տարբերությունները, ուժեղ կողմերը եւ օգտագործումը դեպքեր: Ահա համապարփակ համեմատություն.

Խաղարկային / ասպեկտ Խորնացույց Դատարկաբանություն
Սեփականություն Մշակվել է չինական ընկերության կողմից Մշակված է Openai- ի կողմից
Աղբյուրի մոդել Բացօթյա աղբյուր Գույքային
Ծախս Անվճար օգտագործել; Ավելի էժան API մուտքի ընտրանքներ Բաժանորդագրումը կամ վճարման համար օգտագործվող գնագոյացումը
Հարմարեցում Խիստ հարմարեցված, ինչը թույլ է տալիս օգտվողներին կսմթել եւ կառուցել դրա վրա Սահմանափակ անհատականացում մատչելի է
Հատուկ առաջադրանքներում կատարումը Excels որոշակի ոլորտներում, ինչպիսիք են տվյալների վերլուծությունը եւ տեղեկատվության որոնումը Բազմակողմանիորեն ստեղծագործական գրավոր եւ խոսակցական առաջադրանքներում ուժեղ կատարմամբ
Լեզուների աջակցություն Ուժեղ կենտրոնացում չինարեն լեզվով եւ մշակույթին Լեզուների լայն աջակցություն, բայց ԱՄՆ-ի կենտրոնամետ
Դասընթացի արժեքը Ուսուցման ավելի ցածր ծախսեր, արդյունավետության համար օպտիմիզացված Բարձրագույն ուսուցման ծախսեր, որոնք պահանջում են էական հաշվարկային ռեսուրսներ
Պատասխանների տատանում Կարող է առաջարկել տարբեր պատասխաններ, հնարավոր է, ազդել աշխարհաքաղաքական համատեքստից Հետեւողական պատասխաններ `հիմնվելով վերապատրաստման տվյալների վրա
Թիրախային լսարան Ուղղված է ծրագրավորողներին եւ հետազոտողներին, որոնք ցանկանում են ճկունություն Նպատակը, ընդհանուր օգտագործողներին, ովքեր փնտրում են խոսակցական հնարավորություններ
Օգտագործեք դեպքեր Ավելի արդյունավետ է կոդերի արտադրության եւ արագ առաջադրանքների համար Իդեալական է տեքստի ստեղծման, հարցումների պատասխանելու եւ երկխոսության մեջ ներգրավվելու համար

«Նվիդիա խափանելու» կարեւոր հեռանկար

Ներկայումս, Հուավեից, մի քանի տնային չիպերի արտադրողներ, ինչպիսիք են Moore Threads, Muxi, Biran Technology եւ Tianxu Zhixin- ը, նույնպես հարմարվում են Deepseek- ի երկու մոդելներին: AI տեխնոլոգիայի վերանայման մասին ասաց չիպի արտադրողը », - Deepseek- ի կառուցվածքը ցույց է տալիս նորամուծություն, բայց այն շարունակում է մնալ LLM- ն: Խորըխի համար հիմնադրվում է հիմնավորումներ, բավականին պարզ եւ արագ դարձնելով: Այնուամենայնիվ, MoE մոտեցումը պահանջում է ավելի բարձր պահանջներ պահեստավորման եւ բաշխման առումով, զուգակցված համատեղելիության ապահովման հետ կապված տնային չիպսերի տեղակայման հետ համատեղ: «Ներկայումս տեղական հաշվարկային ուժը չի համընկնում NVIDIA- ի օգտագործման մեջ օգտագործելիության եւ կայունության մեջ, որը պահանջում է բնօրինակ գործարանի մասնակցություն ծրագրային միջավայրի կարգաբերման, խնդիրների լուծման եւ հիմնարար գործունեության օպտիմիզացման համար»: Զուգահեռաբար, «Deepseek R1- ի մեծ պարամետրերի մասշտաբի պատճառով, տնային պայմաններում ավելի շատ հանգույցներ են պահանջում զուգահեռ: Deepseek V3 մոդելի կարեւորագույն կետերից մեկը FP8 խառը ճշգրիտ վերապատրաստման շրջանակի ներդրումը է, որը արդյունավետորեն վավերացվել է ծայրաստիճան մեծ մոդելի վրա, նշելով էական նվաճում: Նախկինում Microsoft- ի եւ NVIDIA- ի նման խոշոր խաղացողները առաջարկել էին հարակից աշխատանքներ, բայց կասկածներ են մնում արդյունաբերության մեջ, կապված իրագործելիության հետ կապված: Հասկանալի է, որ INT8- ի համեմատ, FP8- ի առաջնային առավելությունն այն է, որ հետվիրահատական ​​քանակի քանակը կարող է հասնել գրեթե կորուստների ճշգրտության: FP16- ի հետ համեմատելու ժամանակ FP8- ը կարող է իրականացնել մինչեւ երկու անգամ արագացում NVIDIA- ի H20- ում եւ ավելի քան 1,5 անգամ արագացում H100- ում: Հատկապես, որպես քննարկումներ, որոնք շրջապատում են ներքին հաշվարկային էներգիայի տենդենցը, ներքին մոդելները, շահում են շահարկում, շահարկումներ այն մասին, թե արդյոք NVIDIA- ն կարող է խաթարվել, ավելի ու ավելի տարածված է դառնում: Անհերքելի փաստն այն է, որ Deepseek- ը իսկապես հանգեցրել է Նվիդիայի շուկայական արժեքի էական անկում, բայց այս հերթափոխը հարցեր է առաջացնում Նվիդիայի բարձրակարգ հաշվարկային էներգիայի ամբողջականության վերաբերյալ: Նախկինում ընդունված պատմությունները Կապիտալով պայմանավորված հաշվարկային կուտակման վերաբերյալ վիճարկվում են, սակայն NVIDIA- ի համար դժվար է լիովին փոխարինվել վերապատրաստման սցենարներում: Deepseek- ի խորը օգտագործման վերլուծությունը ցույց է տալիս, որ ճկունությունը, օրինակ, SM հաղորդակցման կամ ուղղակիորեն շահարկելու ցանցային քարտերը, հնարավոր չէ կանոնավոր GPU- ների համար: Արդյունաբերության տեսակետները շեշտում են, որ NVIDIA- ի խոռոչը ներառում է ամբողջ Cuda էկոհամակարգը, քան պարզապես Cuda- ն ինքնին, եւ PTX- ը (շարանը իրականացնում է) հրահանգներ, որոնք DEEPSEEK- ի աշխատանքի մեջ են: «Կարճաժամկետ հեռանկարում NVIDIA- ի հաշվարկային ուժը չի կարող շրջանցվել. Դա հատկապես պարզ է վերապատրաստման մեջ. Այնուամենայնիվ, կենցաղային քարտերի տեղակայումը ավելի հեշտ է լինում: Ընդհանուր առմամբ, եզրակացության տեսանկյունից հանգամանքները հուսադրող են ներքին մեծ մոդելի չիպերի համար: Ներքին չիպերի արտադրողների հնարավորությունները եզրակացության ոլորտում ավելի ակնհայտ են `վերապատրաստման չափից բարձր պահանջների պատճառով, որոնք խոչընդոտում են մուտքը: Վերլուծաբանները պնդում են, որ ներքին եզրակացության քարտերի օգտագործումը բավարար է. Անհրաժեշտության դեպքում լրացուցիչ մեքենա ձեռք բերելը իրագործելի է, մինչդեռ վերապատրաստման մոդելները ներկայացնում են եզակի մարտահրավերներ, որոնք մեծ քանակությամբ մեքենաների կառավարում կարող են դառնալ ծանրաբեռնվածության արդյունքների վրա: Դասընթացն ունի նաեւ կլաստերի մասշտաբի հատուկ պահանջներ, մինչդեռ եզրակացության կլաստերի պահանջները այնքան խիստ չեն, այդպիսով թեթեւացնելով GPU- ի պահանջները: Ներկայումս NVIDIA- ի Single H20 քարտի կատարումը չի գերազանցում Հուավեի կամ Քեմբրիատի: Դրա ուժը կայանում է կլաստերի մեջ: Հիմք ընդունելով հաշվարկային էներգետիկայի շուկայի վրա ընդհանուր ազդեցությունը, Լուչեն տեխնոլոգիայի հիմնադիրը, դուք Yang- ը AI տեխնոլոգիաների վերանայման հետ հարցազրույցում նշվել է. Հաշվողական էներգետիկ շուկայում կայուն պահանջարկ »: Բացի այդ, «DeepSeek- ի բարձրացրած պահանջը պատճառաբանելու եւ բարեպաշտ ծառայությունների համար ավելի համատեղելի է ներքին հաշվարկային լանդշաֆտի հետ, որտեղ տեղական կարողությունները համեմատաբար թույլ են, օգնում են թափել թափոնները` ներքին հաշվարկային էկոհամակարգի տարբեր մակարդակներում արտադրողների համար »: Luchen Technology- ը համագործակցել է Huawei Cloud- ի հետ `Deepseek R1 սերիայի պատճառաբանությունը` API- ների եւ Cloud Imaging Services- ը `հիմնված ներքին հաշվարկային էներգիայի վրա: Դուք լավատեսություն եք հայտնել ապագայի վերաբերյալ.

微信图片 _20240614024031.jpg1

Եզրափակում

Անկախ նրանից, թե Deepseek- ը «ավելի լավն է», քան CHATGPT- ը կախված է օգտագործողի հատուկ կարիքներից եւ խնդիրներից: F կունության, ցածր գնի եւ անհատականացման կարիք ունեցող առաջադրանքների համար Deepseek- ը կարող է վերադաս լինել: Ստեղծագործական գրելու, ընդհանուր հարցման եւ օգտագործողի համար հարմար խոսակցական ինտերֆեյսեր, CHATGPT- ը կարող է առաջատար լինել: Յուրաքանչյուր գործիք տարբեր նպատակներով է սպասարկում, ուստի ընտրությունը մեծապես կախված կլինի այն համատեքստից, որում դրանք օգտագործվում են:

Գտեք ELV մալուխի լուծում

Կառավարման մալուխներ

BMS- ի, ավտոբուսի, արդյունաբերական, գործիքավորման մալուխի համար:

Կառուցվածքային կաբելային համակարգ

Network անց եւ տվյալներ, օպտիկամանրաթելային մալուխ, կարկատակի լար, մոդուլներ, FacePlate

2024 ցուցահանդեսներ եւ իրադարձությունների ակնարկ

APR.16-րդ 18, 2024 Միջին Արեւելք-էներգիա Դուբայում

Ապրիլ .6-րդ 18, 2024 թ. Մոսկվայում

Մայիսի 9-ին, 2024 նոր ապրանքներ եւ տեխնոլոգիաների մեկնարկի միջոցառում Շանհայում

Հոկտեմբեր 25-ին, 2024 թ. Անվտանգություն Չինաստան Պեկինում

Նոյեմբեր .19-20, 2024 Կապակցված Համաշխարհային KSA


Փոստի ժամանակ, FEB-10-2025