cleanUrl: "/paper/word2vec"
<aside> ๐ ๋ ผ๋ฌธ : Efficient Estimation Of Word Representations In Vector Space (Word2Vec) ์ ์ : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean ****
</aside>
๋ณธ ๋ ผ๋ฌธ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ์์ Word2Vec ์ด๋ผ๋ ๊ธฐ๋ฒ์ผ๋ก ์๋ ค์ง ๋ชจ๋ธ์ ์ ์ํ ์ ๋ช ํ ๋ ผ๋ฌธ์ ๋๋ค. ๊ธฐ๋ฒ์ ์ด๋ฆ์์ ์ ์ถํ ์ ์๋ฏ์ด, ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ฒกํฐ์ ๋์ํ์ฌ ์ ์ฅํ ์ ์๊ณ ๊ฐ ๋ฒกํฐ ์ฌ์ด์ ๋ง์ ๊ณผ ๋บ์ ์ผ๋ก ์๋ฏธ์ ๋ํ ์ฐ์ฐ์ฒ๋ฆฌ๋ฅผ ํตํด ์ํ๋ ์๋ฏธ์ ๋จ์ด๋ฅผ ์ฐพ์ ์ ์๋ค๋ ์ ์ด ํฅ๋ฏธ๋ก์ ์ต๋๋ค. ์ด ๋ฐฉ์์ ๊ธฐ์กด์ neural network ๋ชจ๋ธ๋ค๋ก ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ ๋ โ๋จ์ด์ ์๋ฏธโ๋ฅผ ๊ธฐ๊ณ์๊ฒ ํ์ต์ํค๊ณ , ๊ธฐ๊ณ๊ฐ ์๋ฏธ๋ฅผ ์ดํดํ ์ ์๊ฒ ๋ง๋ ๋ค๋ ์ ์์ ํฐ ์์๊ฐ ์๋ค๊ณ ๋ณด์์ต๋๋ค. ์ด์, Word2Vec ๊ธฐ๋ฒ๊ณผ ๊ธฐ๊ณ์ ํ๋ จ์ ์ํด ์ ์๋ ๋ ๊ฐ์ง ๋ชจ๋ธ์ธ CBOW, Skip-gram์ ๋ํด ์์๋ณด๊ณ ์ ๋ณธ ๋ ผ๋ฌธ์ ์ ํํ์์ต๋๋ค.
2013๋ ์ด์ ์ NLP system๊ณผ ๊ธฐ์ ๋ค์์๋ ํ์ต๋ ๋จ์ด๋ค ๊ฐ์ ์ฐ๊ด์ฑ ์์ด ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ก ์กด์ฌํ์์ต๋๋ค. ์ด๋ฐ ๋จ์ํ ๋ชจ๋ธ๋ค์ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ง๋ค์ด๋ผ ์ ์์ผ๋, ์ค์ ํ์ต์ ์ํ ๋ฐ์ดํฐ์ ์์ด ์ ํ๋์ด์์ด ๊ธฐ์ ์ ์ธ ๋ฐ์ ์ ํ๊ธฐ๋ ์ด๋ ค์ ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ ํตํด ๋ ๋ณต์กํ ๋ชจ๋ธ๋ค์ ์ ํ๋๋ฅผ ์ฌ๋ฆด ์ ์๊ฒ ๋์์ต๋๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๋ชฉํ๋ ์์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ํฐ data set ๋๋ vocabulary๋ก๋ถํฐ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ ๊ฒ์
๋๋ค. ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ์์ ํตํด ์ ์ฌํ ์๋ฏธ์ ๋จ์ด๊ฐ ๊ทผ์ฒ์ ์์นํ ๋ฟ ์๋๋ผ, **multiple degrees of similarity(**syntactic, semantic, phonetic ๋ฑ์ ๋ถ์ผ์ feature๋ฅผ ๊ณต์ )๋ฅผ ๊ฐ์ง ์ ์๋๋ก ๋ง๋ค์ด์ค๋๋ค. vector(โ์์ธโ) - vector(โ์๋โ) + vector(โ์ผ๋ณธโ)
์ ๊ฒฐ๊ณผ๋ก ์ป์ ๋ฒกํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋จ์ด ๋ฒกํฐ๊ฐ โ๋์ฟโ๋ฅผ ๊ฐ๋ฆฌํค๋ ๋ฐฉ์์ผ๋ก, ๋จ์ด ๋ฒกํฐ์ ์ฐ์ฐ์ด ๋จ์ด ์๋ฏธ์ ์ฐ์ฐ์ผ๋ก ๊ฐ๋ฅํ๋๋ก ์๋ก์ด ๋ชจ๋ธ ์ํคํ
์ณ๋ฅผ ๊ตฌ์ฑํ์ฌ syntactic, semantic ์์ญ์์ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง ์ ์๋๋ก ํ์์ต๋๋ค.
์ผ๋ จ์ ๋จ์ด๊ฐ ์ฃผ์ด์ก์ ๋, ํด๋น ๋จ์ด๋ค ๋ค์ ๋์ฌ ๋จ์ด๋ฅผ ํต๊ณ์ ์ผ๋ก ์ถ์ธกํ์ฌ ์ถ๋ ฅํ๋ ๋ชจ๋ธ์ ๋๋ค. ์์ ๋จ์ด ์ค ์ต๊ทผ N๊ฐ์ ๋จ์ด๋ง์ ์ฌ์ฉํ๋ฉฐ, ์ฌ์ฉํ๋ ๋จ์ด์ ๊ฐ์์ ๋ฐ๋ผ unigram, bigram, trigram, 4-gram ๋ฑ์ผ๋ก ์ด๋ฆ์ด ๋ถ์ต๋๋ค. ํ์ต ์ฝํผ์ค๋ฅผ ํตํด ๋จ์ด๋ค ๋ค์ ๊ฐ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ ๊ณ์ฐํ์ฌ ํ์ตํ๊ณ , ์ฃผ์ด์ง N๊ฐ์ ๋จ์ด์ ๋ํ์ฌ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก ๋ค์ ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ฅ ๋์ ๋จ์ด๋ฅผ ๊ณ์ฐํ์ฌ ๊ฒฐ๊ณผ๋ก ์ถ๋ ฅํ๋ ๋ชจ๋ธ์ ๋๋ค.
์ฅ์
๋จ์
Neural Network Language Model ๋๋ Feedforward Neural Language model์ ์๋ ์๋ฒ ๋ฉ์ ํตํด ๋จ์ด ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ธฐ๊ณ์๊ฒ ํ์ต์์ผ, ํ๋ จ์ ์๋ ๋จ์ด์ ์์์ ๋ํด ๋ณด๋ค ์ ํํ ์์ธก์ด ๊ฐ๋ฅํ๋๋ก ํ ๊ฐ์ ๋ ๋ชจ๋ธ์ ๋๋ค. N-gram ์ฒ๋ผ N๊ฐ์ ๋จ์ด๋ฅผ ์ด์ฉํด ๋จ์ด๋ฅผ ์์ธกํฉ๋๋ค. ์ฃผ์ด์ง ๋จ์ด์ ๋ํด ๋งคํ๋ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๋ํด ์ฐ๊ฒฐ ์ฐ์ฐํ์ฌ hidden layer๋ก ์ ๋ฌํ๋ฉด hidden layer์์ ๊ฐ์ค์น๋ฅผ ๊ณฑํด ์ถ๋ ฅ์ธต์ผ๋ก ๋ณด๋ด๊ณ , ์ถ๋ ฅ์ธต์์ ๋๋ค๋ฅธ ๊ฐ์ค์น์ ๊ณฑํด์ง ๋ค ๊ฐ์ฅ ๊ฒฐ๊ณผ์น๊ฐ ํฐ ๊ฐ์ ํด๋นํ๋ ๋จ์ด๋ฅผ ์ถ๋ ฅํ๋ ๋ชจ๋ธ์ ๋๋ค. ํ์ต ์ฝํผ์ค์ ์ ๋ต๊ณผ ์ป์ด๋ธ ๊ฒฐ๊ณผ ๊ฐ์ ์ฐจ์ด์ ๋ํด ์ญ์ ํ๊ฐ ์ด๋ฃจ์ด์ง๋ฉฐ ์ง๋์จ ๊ฐ์ค์น ํ๋ ฌ๋ค๊ณผ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๊ฐ์ด ์กฐ์ ๋๋ฉฐ ํ์ตํฉ๋๋ค.
์ฅ์
๋จ์