챗GPT

A.I/info

챗GPT

태하팍 2023. 3. 23. 16:36

Chat GPT가 너무 핫해서 알아보다가 좋은 영상을 보고 정리해보았습니다.

1950년부터 지금까지 엄청난 노력들이 있었네요 ㅎㅎ

인공지능은 이미 1950년도에 제안이 됐었던 분야
- 접근방법은 기호 기반 인공지능, 규칙기반 인공지능
  - 연구하는 사람들이 기계에게 세상을 설명 해줌.
    - 고양이란 이런이런거다~ 문장이란 이렇게 만드는거다 등 규칙을 설명 해줌.
      - 언어의 경우 당시 촘스키 문법 등 규칙 기반의 언어학 이론들이 등장 → 문법적인 규칙을 다 입력
- 30년동안 기계에게 설명을 해줬는데 다 실패 함..

1980년도 새로운 방법을 제안
- 학습기반 인공지능(머신러닝)
  - 30년간 실패 → 기계에게 아무리 고양이를 설명해도 고양이와 강아지를 구별해내지 못함
  - 70년도 80년도 발달 심리학, 피아제나 또는 비고츠키의 연구 결과를 보니 어느 부모도 아이들에게 현실을 하나하나 규칙으로 설명해주는 부모는 없음.
    - 인간은 스스로 학습을 하면서 데이터를 경험하면서 세상을 알아본다.
    - 그래서 1980년도에 기계학습이란 방법이 등장!
- 기계학습 역시 30년정도 시도되다가 2000년 초 실패 함..

인공지능은 60년 동안 실패했었던 분야
2010년도 기계학습이란 분야가 새로운 이름으로 다시 등장!
- 심층학습 또는 딥러닝이라는 이름으로 2010년도에 등장
- 갑자기 성공을 함!
  - 알고리즘에는 차이가 없었으나 데이터에는 차이가 있었음!
  - 1980년도에 고양이와 강아지 사진을 구별하기 위해 고양이 사진 100장, 강아지 사진 100장 정도 사용 → 학습 X
  - 2010년도 학습에 사용할 수 있는 데이터가 상상을 초월할 정도로 늘어남. → 고양이 사진 100만장 사용 가능
    - 데이터 size를 늘렸더니 기계가 세상을 알아보기 시작 함.
      - 기계가 자동차, 자전거, 보행자를 구별 → 자율주행 자동차
- 새로운 것을 만들어내는 것은 아니고 세상을 식별하고 알아보는 방법
- convolution 알고리즘
  - 이미지를 분석하기 위해 패턴을 찾는데 유용한 알고리즘으로 데이터에서 이미지를 직접 학습하고 패턴을 사용해 이미지를 분류한다.
  - 병렬처리 가능
    - 수백만 장의 데이터를 학습하기 위해서는 어마어마한 계산량이 필요함. → 병렬처리하지 않으면 학습 불가
      - 엔비디아 GPU 병령 프로세서들이 급격하게 needs가 늘어남. → 엔비디아 폭풍 성장!
- 세상을 알아보고 식별하는 기능은 사용 가능한 영역에 다 사용이 됐음. → 2022년부터 엔비디아 주가 떨어지기 시작 함.
- 구글 브레인에 바스바니라는 인도 출신 과학자가 transformer라는 새로운 알고리즘을 제안
  - 트랜스포머는 어텐션(Attention), 정확히는 셀프-어텐션(Self-Attention)이라 불리는 방식을 사용.
    - 핵심은 더이상 수십만 수백만 단위의 데이터가 아니고 수척억 또는 조 단위의 데이터를 학습 할 수 있는 능력
    - 이 기술을 사용한 영역은 자연어 처리(언어처리)
      - 언어는 문법이 있고 순서가 있어서 처리가 어려움
        
        문장이 길어지면 길어질수록 첫 단어를 들은 기계가 기억해야 될게 점점 늘어남.
    - 흥미롭게도 문장의 순서를 배제 시킴 → 집중 알고리즘 사용(attention)
    - 수천억 단위의 학습데이터를 사용하고 인터넷에 있는 모든 문장을 학습 함.
      - 여기서 학습이란 인터넷에 있는 모든 글에서 단어와 단어, 문장과 문장의 확률관계를 미리 학습 하는것.
        
        우리는 조금 이따 OO을 먹을꺼다. 점심을 먹을꺼다 등 단어들 간에는 확률적인 관계가 있음.
2017년 알고리즘이 제시되고 2018년 open AI라는 회사가 구글이 개발한 transformer를 사용해서 GPT라는 방법을 제안.
- GPT
  - Generative : 생성을 해주는
  - Pretrained : 미리 학습을 하는
  - Transformer : 트랜스포머 (알고리즘)
- 내가 입력값을 입력(prompt)하면 생성을 해줌.
  - 지난 10년간 식별과 구별을 했다면 2023년부터는 인공지능이 생성을 할 수 있다.
- 학계에서는 5년 전부터 계속 토론이 되고 있었음.
  - GPT1,2,3 모두 문제가 있었음 → 문장이 완벽하지 않음.
    - 2022년 11월30일 Chat GPT라는게 나왔을 때 사실 기대하지 않음. → 사용해보니 너무 잘됨!
      - Chat GPT는 기존 open AI가 만든 GPT 알고리즘에 강화학습을 사용!
        
        GPT를 사용해서 문장을 만들어내면 확률 위주로만 문장을 만들어내는데
        확률적으로 가능성 있는 단어들만 나열해 놓으면 사람이 읽었을 때 자연스럽지 못함. → 강화학습 시작
        
        강화학습 : GPT에게 수많은 문장을 만들게 하고 사람한테 판단을 하라고 함.
        
        나이지리아, 파키스탄 같은데서 수천명의 사람들을 동원해서 저렴한 인건비로 문장을 읽고 좋은지 나쁜지 판단하는 작업을 함.
        
        멋지게 영어로 말하면 Reinforcment Learning by Human Feedbak
        
        (사람 피드백에 의한 강화학습)
- 한줄요약
  - Chat GPT는 확률적으로 만든 언어의 지도를 가지고 인간의 피드백 기반의 강화학습이 만들어진 것.
    - 결과가 너무 좋음..bing에서 실제로 해보니 진짜 좋음..대박..
검색의 시대는 끝나나?
- 구글 ceo가 98년 창업이후 코드 RED 회사가 망할 수 있는 위기에 처했다라는 이야기를 함.
- 2021년에 이미 구글에서 Transformer를 사용해서 대화하는 AI를 개발 했었음. → 람다
  - 람다는 결국 공개 X
    - 구글의 핵심 비즈니스는 광고! → 검색의 시대는 클릭을 많이 해야 함.(클릭기반 관련 광고 나옴)
    - Chat GPT같은 녀석이 대답을 해준다면 클릭을 할 필요가 없음(클릭 횟수가 줄어듬 → 광고주 떨어짐 → 매출 하락)
    - 혁신가의 딜레마에 빠짐..
      - 본인들의 기술로 어마어마한 조 단위 비즈니스를 하고 있는데 본인들이 개발한 기술로 그 비즈니스가 날아갈 수 있을테니 활용 X
- Open AI가 2022년 11월 30일 Chat GPT를 공개 해버려서 어쩔수 없이 2023년 2월 6일 바드(람다를 약간 바꾼 녀석) 공개
  - 현재 평으로는 바드보다 Chat GPT 승!
- 마이크로소프트
  - 2년전부터 Open AI에 1조 투자
  - 계약조건 중 하나가 Open AI가 만들어 낸 기술의 첫번째 사용권은 마이크로소프트가 가지고 있다.
    - Open AI가 개발한 알고리즘을 가장 먼저 활용할 수 있음.
  - 2023년 2월7일 new Bing 소개
    - 기존 검색엔진에 Chat GPT를 집어넣음
  - 생산형 AI의 계산량이 어마어마함 → 클라우드를 사용해야 함.
  - 마이크로소프트 Chat GPT를 기업적으로 비즈니스적으로 앞으로 활용하려면 마이크로소프트의 클라우드소프트 애저를 사용해야 함.
    - 다른 서비스에는 못싣게 함 → 마이크로소프트 애저가 새로운 플랫폼이 될 수 있음.
      - 아마존 AWS 클라우드 비즈니스가 위험해짐.
- 올해 어머어마한 세상이 바뀌는 변화가 지금 벌어지고 있음.
  - 검색 위주가 무너지기 시작
  - 클라우드가 AWS에서 마이크로소프트로 넘어갈 것인가?

참고 : https://www.youtube.com/watch?v=eCKS_etvZyI

bing chat gpt

Chat GPT가 가장 약한 것?
- 계산을 못함 → 계산기가 아님 → 인간이 올려놓은 문장을 가지고 학습한 녀석 → 계산하는 더하기 빼기 곱하기하는 규칙 자체도 모름.
- 계산은 확률적으로 되는것이 아님 → 2+2가 가끔 3이고 가끔은 4이고 하면 안됨.
- 팩트도 자주 틀림
  - 챗 GPT가 아는 세상은 인간이 지난 30년동안 인터넷에 올린 글임 → 그 글에는 맞는 이야기도 있고 틀린 이야기도 있음.
    - 여기서 중요한것은 질문이 매우 중요함.
      - 질문에 따라 맞는 이야기도 할 수 있고 틀린 이야기도 할 수 있다.
Chat GPT 알고리즘에서 보면 3가지가 매우 중요 함.
- 학습 데이터 : 우리 인간이 올려놓은 데이터
- 사람의 피드백을 통한 강화학습
- 어떻게 무엇을 질문하냐
Chat GPT 활용
- 영어공부하기 좋음
- 큰 기사를 입력하고 짧게 해달라고 하면 요약 해줌
- 모든 창작영역에서 도움이 됨.
  - 소설, 연극 → 퀄리티 떨어지지만 대량생산 가능 → 브레인스토밍에 좋음.