NLP (5) 썸네일형 리스트형 [NLP] tensorflow 를 이용한 seq2seq with attention기계 번역기 구현 [NLP] tensorflow 를 이용한 seq2seq 기계 번역기 구현seq2seq tensorflow 를 사용한 코드 seq2seq 구현: 아래 reference 링크에서의 예시를 실행하였으며 영어 프랑스어 기계번역을 진행0. 필요 라이브러리 및 데이터 다운import osimport reimport shutilimport zipfileimpchoiscoding.tistory.com위 포스팅에서 attention layer 추가, 사용 data 토큰화 방법, model size 등 모두 동일 Attention Mechanismsteps1. attention score 계산2. 소프트맥스 함수를 통해 attention distribution를 구함3. 각 인코더의 어텐션 가중치와 은닉상태를 가중합하여.. [NLP] tensorflow 를 이용한 seq2seq 기계 번역기 구현 seq2seq tensorflow 를 사용한 코드 seq2seq 구현: 아래 reference 링크에서의 예시를 실행하였으며 영어 프랑스어 기계번역을 진행0. 필요 라이브러리 및 데이터 다운import osimport reimport shutilimport zipfileimport numpy as npimport pandas as pdimport tensorflow as tfimport unicodedataimport urllib3from tensorflow.keras.layers import Embedding, GRU, Densefrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.preproces.. [자연어처리입문] RNN을 이용한 인코더-디코더 (1) 시퀀스 투 시퀀스 ** 본 포스팅은 아래 링크를 참조하였음 ** https://wikidocs.net/24996 14-01 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 이번 실습은 케라스 함수형 API에 대한 이해가 필요합니다. 함수형 API(functional API, https://wikidocs.net/38861 )에 대해서 우선 숙지 후… wikidocs.net RNN을 이용한 인코더-디코더 기존에 개체명 인식, 품사태깅에서 사용하는 구조와 달리 인코더, 디코더 두개의 RNN을 사용 주로 입력문장과 출력 문장의 길이가 다른 경우 사용 대표적으로 번역기, 텍스트 요약에 사용 시퀀스-투-시퀀스 (Sequence-to-Sequence, seq2seq) 입력된 시퀀스로부터 다른 도메인의 시퀀스.. [자연어처리입문] 서브워드 토크나이저 (2) 서브워드텍스트인코더 ** 본 포스터는 아래 링크를 참조하였음 ** https://wikidocs.net/86792 13-03 서브워드텍스트인코더(SubwordTextEncoder) SubwordTextEncoder는 텐서플로우를 통해 사용할 수 있는 서브워드 토크나이저입니다. BPE와 유사한 알고리즘인 Wordpiece Model을 채택하였으며, 패키지를… wikidocs.net 서브워드텍스트인코더(Subword Text Encoder) 텐서플로우를 통해 사용할 수 있는 서브워드 토크나이저 Wordpiece Model을 사용 패키지를 통해 쉽게 단어들을 서브워드로 분리할 수 있음 서브워드텍스트인코더를 이용한 IMDB 리뷰 토큰화 데이터 확인 import pandas as pd import urllib.request impo.. [자연어처리입문] 서브워드 토크나이저 (1) 바이트 페어 인코딩, 센텐스피스 ** 본 포스터는 아래 링크를 참조하였음 ** https://wikidocs.net/22592 13-01 바이트 페어 인코딩(Byte Pair Encoding, BPE) 기계에게 아무리 많은 단어를 학습시켜도 세상의 모든 단어를 알려줄 수는 없는 노릇입니다. 만약 기계가 모르는 단어가 등장하면 그 단어를 단어 집합에 없는 단어란 의미에서 해당 토… wikidocs.net 서브워드 분리(Subword segmenation) 하나의 단어를 여러 서브워드로 분리해서 단어를 인코딩 및 임베딩하여, OOV(Out-Of-Vocabulary) 나 희귀단어, 신조어 같은 문제를 완화 BPE(Byte Pair Encoding) 199년 제안된 데이터 압축 알고리즘이나 후에 자연어 처리의 서브워드 분리 알고리즘으로 응용됨.. 이전 1 다음