ebben a cikkben az a célom, hogy magyarázatot adjak arra, hogy mik a pointer hálózatok, a “Pointer hálózatok” cikkben meghatározottak szerint (ez az a cikk, amely először írja le a pointers hálózatot), és miért használják őket. Ez a munka a PhD-M keretében történik, amely a természetes nyelvfeldolgozás (NLP) területén történik.

én tényleg írni ezt a fajta jegyzetek a saját megértése, azonban remélem, úgy találja, hogy akkor részesülhetnek belőle is.

azt javaslom, hogy először olvassa el Oriol Vinyals, Meire Fortunato és Navdeep Jaitly “Pointer Networks” – jét, majd térjen vissza ide a magyarázatokért, amelyeket adok.

magyarázatom első részében áttekintést adok arról, hogy melyek a dolgozatban használt legfontosabb kifejezések.

a második részben összefoglalom a papírt.

általános szabály, hogy amikor egy tudományos cikkből tanulok, az első lépés, amelyet megteszek, az összes ismeretlen vagy kétértelmű kifejezés felírása, amelyeket a cikkben számos alkalommal használnak, vagy amelyek fontosnak tűnnek a megértése szempontjából.

általában az alábbi egyszerű lépéseket követem, hogy egyértelmű meghatározást találjak:

– a ctrl + f billentyűkombinációval megtalálom a kétértelmű szavak összes előfordulását az olvasott dolgozatban. A kontextussal általában elkezdhetem megérezni a szó meghatározását.

– keresse meg a szót az interneten gondosan kiválasztott kulcsszavakkal

az alábbiakban felsorolunk néhány nem egyértelmű kifejezést, amelyeket a cikkben találtam:

– kombinatorikus problémák:
a kombinatorikus probléma abból áll, hogy egy véges objektumkészlet között olyan objektum található, amely kielégít egy sor korlátozást.

– tokenek:
NLP kontextusban a token olyan w, amely kielégíti a constraintsord vagy alszó egy nyelven.
ebben a cikkben azonban a tokenek egy kimeneti sorozat elemei, amelyek kétféle lehetnek:” speciális ” tokenek és normál tokenek.
> a “speciális” tokenek esetében a kimeneti sorrend kezdetét vagy végét jelentik.
> a rendszeres tokenek a bemeneti szekvencia különböző elemeinek megkülönböztetésére használt indexekből állnak.

– kimeneti szótár:
ebben az összefüggésben a kimeneti szótár az összes lehetséges érték listája, amelyet egy token felvehet.

példák a tokenek sorrendjére és azok megfelelő bemeneti sorrendjére, a cikkből kivonva:

Cp1={⇒, (1, 2, 4), (1, 4, 5), (1, 3, 5), (1, 2, 3), ⇐} & P1 = {P_1 , . . . , P_5 } a konvex hajótest-probléma összefüggésében (a cikkben bemutatott 3 kombinatorikus probléma egyike).

a” fő” és “fő” speciális “tokenek. Figyelje meg, hogyan kerülnek a tokenek kimeneti sorozatának elejére és végére.

“(1, 2, 4)” vagy” (1, 4, 5) ” rendszeres tokenek. Ezek alkotják 3 indexek, amelyek megkülönböztetésére használják elemei a bemeneti szekvencia {P_1,. . . , P_5 }.

vegye figyelembe, hogy a következő nem lehetséges:

Cp1={⇒, (1, 2, 8), (1, 4, 5), (1, 3, 5), (1, 2, 3), ⇐} & P1 = {P_1 , . . . , P_5 } a konvex hajótest-probléma összefüggésében, mert nincs p_8 bemeneti sorrendünkben.

a cikk összefoglalása

miután először elolvastam a cikket, és megkerestem a fenti definíciókat, a cikk megértése a következő:

A cikk középpontjában a kombinatorikus problémák állnak.
a szerző célja egy olyan modell felépítése, amely képes egy helyes CP kimeneti szekvenciát adni, adott egy változó méretű p bemeneti szekvenciát és egy kapcsolódó kombinatorikus problémát.

egy ilyen modell nyilvánvalóan ellentétben áll egy kizárólag visszatérő neurális hálózat (RNN) alapú modellel, ahol a modell csak betanítható, majd azonos méretű bemeneteken használható.

miután végeztem a kétértelmű kifejezések tisztázásával, általában másodszor olvasom a cikket, amelyen dolgozom, hogy felmérjem, helyes vagy helytelen-e a megértésem. Ennek érdekében gyakran írok egy kis összefoglalót arról, hogy véleményem szerint mi releváns a megértésem szempontjából, minden egyes részhez, amely a papírt alkotja.

betekintés a bevezetésből:

kivont rom a cikk

az 1. ábrán egy klasszikus szekvenciát látunk az RNN-alapú modellhez egy Ptr-Net (pointer network) mellett.
az ábra leírásából azt látjuk, hogy a Ptr-háló az egyik oldalon egy kódoló RNN-ből, a másik oldalon pedig egy generáló hálózatból áll, szemben azzal, hogy két RNN-t használunk a szekvenciáról szekvenciára modellhez.

úgy tűnik, hogy a PTR-Net generáló hálózata minden lépésben softmax eloszlást ad ki a bemenetek felett, ami az úgynevezett “mutató”.

betekintés a modellekből:

ebben a részben áttekintjük a szekvenciáról szekvenciára modellt, a bemeneti-figyelem modellt és végül a Ptr-Net modellt.

a / Seq-to-seq modell:

feltételezzük, hogy az olvasó tudja, mi az RNN, és hogyan használják őket egy seq-to-seq modell létrehozásához (ha nem, akkor ajánlom ezt és/vagy ezt olvasni).

A szerzők meghatározzák a tokenek kimeneti sorozatának valószínűségét, mint a kimenetünket alkotó tokenek feltételes valószínűségének szorzatát, figyelembe véve az előttük lévő tokeneket, valamint a bemeneti szekvenciát.

a kimeneti szekvencia valószínűsége

ha a kimeneti Cp 3 tokenből áll, akkor m(P)=3 lesz. A theta szimbólum a valószínűség megtalálásához használt modell paramétereit jelöli.

itt a kimeneti szekvencia előállításához használt RNN (az úgynevezett dekóder) modellezi a lehetséges tokenekhez kapcsolódó feltételes valószínűségeket, minden kimeneti időpontban, figyelembe véve az előző kimeneti időkben generált tokeneket.

az edzés során a modellt kiképzik a megfelelő kimeneti sorrend létrehozására, és az edzőkészletet ennek megfelelően használják.

a modell paramétereinek edzése

a modell edzése után arra használjuk, hogy megoldást találjunk hasonló problémákra, mint amelyek a képzési készletben vannak. Ez az úgynevezett következtetési folyamat.

a következtetés során (amikor a modellt a kombinatorikus probléma válaszának előrejelzésére használják) sugárkeresési eljárást alkalmaznak. A lehető legjobb kimeneti szekvenciát modellezi.

fő Elvitel:

a szekvencia-szekvencia modell nem működik, ha különböző méretű bemeneteken használják. Minden “n” / bemeneti mérethez külön modellnek kell lennie.

a legjobb tippem az, hogy ez a modell inicializálásakor beállított kimenet méretének köszönhető.
pontosabban, az RNN dekódolás rejtett állapotokat generál minden kimeneti időpontban. Ezeket a rejtett állapotokat kétféle módon használják:
– az RNN bemeneteként a következő lépésben
– a kimenet/token kiszámításához

a rejtett állapotnak ezt a második használatát a W(S) súlykészlettel rendelkező dot termék jellemzi, amely a rejtett állapotot rögzített méretű vektorrá alakítja, jellemzően a kimeneti szótár méretére.

a kimenet kiszámítása A t lépésben

mivel a W(S) mérete az inicializáláskor rögzített, lehetetlenné teszi a modell számára a különböző kimeneti szótárméretekkel kapcsolatos problémák edzését.

B / tartalom alapú bemeneti figyelem:

a figyelem fogalma ebben a cikkben a képlettel nyilvánul meg:

tartalom alapú bemeneti figyelem

ahol az e az encoder hidden states, A d A decoder hidden states, A W1, W2 és a v A figyelemhálózat paraméterei.

már ismerem a figyelem fogalmát a transzformátor alapú modellek tanulmányozásából, mint például A BERT, amely a “Scaled Dot-Product Attention” – t használja.

bár a figyelem mechanizmusa itt nem azonos, a figyelem használatának általános célja azonos. A cél az, hogy összpontosítson subs-részei a bemeneti szekvencia. Ehhez a szerzők összefűznek egy normalizált eloszlást a kódoló kimenetei vagy rejtett állapotai felett a dekóder rejtett állapotaihoz.

ez ellentétben áll egy szabályos szekvenciáról szekvenciára modellel, ahol a kódoló csak az utolsó rejtett állapotot adja meg a dekóder bemeneteként.

fő Elvitel:

a figyelem mechanizmus lehetővé teszi, hogy jobb teljesítményt, ha összehasonlítjuk a rendszeres szekvencia szekvencia modell. A különböző méretű bemenetek problémája azonban nem oldódik meg.

C/ Ptr-Net:

a PTR-Net mögött álló ötlet valójában meglehetősen egyszerű. A figyelem mechanizmus kimenetét használja az egyes tokenek feltételes valószínűségének modellezésére.
más szavakkal, azt a lépést, ahol a rejtett állapotot megszorozzák egy W(S) súlykészlettel, egyszerűen kihagyják.

PTR-Net modellezés valószínűsége kimeneti sorrendje tokenek

fő elvitelre:

a használata ez a modell lehetővé teszi, hogy a vonat és következtetni bemenetek különböző méretű, miközben jó teljesítményt szinten.

A cikk további része bemutatja, hogy a fenti különböző modellek milyen jól teljesítenek három különböző kombinatorikus probléma esetén.

záró gondolatok:

A tudományos cikkek nagyon jó információforrások, azonban tapasztalatból tapasztaltam, hogy néha kissé bonyolultak. Nagyon sok információt kell továbbítani korlátozott mennyiségű szövegen keresztül. Ennek következtében a szerzők nem tudnak mindent megmagyarázni, feltételezik, hogy az olvasó alapvető ismeretekkel rendelkezik az érdeklődésre számot tartó témában.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.