기존 기계 번역과 다르게 Transformer와 같이 신경망 모델들은 문장에서 Attention을 통해 가중치를 다르게 주어 작업이 되기 때문에, 영어→한국어 같이 문장 구조가 다른 언어에서도 용이한 번역이 가능하다.
DeepL과 ChatGPT가 잘 받아들일 수 있으면서, 문장이 중간에 끊기지 않도록 문장기호를 잘 선별하여 선정
쉽고 빠르고 품질이 좋음
상세 프롬프트는 기술하기 어려우나 교정과 관련된 프롬프트로 추가적인 교정을 ChatGPT를 통해 진행하였음, 이렇게 하면 문장 구조를 원하는 형태로 디벨롭하여 가능.
현재는 속도와 token 양 때문에 GPT-3.5-turbo-16k-0613 모델을 사용 중이나 추후에는 Finetuning 모델을 통해 단어와 교정 어투의 퀄리티를 업그레이드 가능할 것으로 판단함.
이후에 DeepL의 단어집 기능도 활용 가능.
Response from DeepL for chunk 0: {'translations': [{'detected_source_language': 'EN', 'text': '라마 2: 오픈 파운데이션과 미세 조정된 채팅 모델\\n휴고 투브론∗루
이 마틴†케빈 스톤†\\n피터 알버트 암자드 알마하이리 야스민 바베이 니콜라이 바슬리코프 수미야 바트라\\n프라즈왈 바르가바 슈루티 보살레 댄 비켈 루카스 블레처 크리스
티안 칸톤 페러 모야 첸\\n기욤 쿠쿠룰 데이비드 에시오부 주드 페르난데스 제레미 푸 웬인 푸 브라이언 풀러\\n신시아 가오 베다누 고스와미 나만 고얄 앤서니 하츠혼 사가
르 호세이니 루이 호우\\n하칸 이난 마르신 카르다스 빅토르 케르케즈 마디안 카브사 이사벨 클로우만 아르템 코레네프\\n푸닛 싱 쿠라 마리-안 라쇼 티보 라브릴 제냐 리
다이애나 리스코비치\\n잉하이 루 유닝 마오 자비에 마르티네 토도르 미하일로프 푸쉬카르 미쉬라\\n이고르 몰리보그 이신 니에 앤드류 폴튼 제레미 라이젠스타인 라시 룽타
칼리얀 살라디\\n앨런 쉘튼 루안 실바 에릭 마이클 스미스 란잔 수브라마니안 샤오칭 엘렌 탄 빈 탕\\n로스 테일러 아디나 윌리엄스 지안 시앙 콴 푸신 쉬 정 얀 일리얀 자
로프 유첸 장\\n안젤라 판 멜라니 캄바두르 샤란 나랑 오렐리엔 로드리게스 로버트 스토닉\\n세르게이 에두노프 토마스 시알롬∗\\nGenAI, 메타\\nAbstract\\n이 작업에서 우리
는 사전 학습되고 미세 조정 된\\n70억 개에서 700억 개에 이르는 대규모 언어 모델(LLM)의 모음입니다.\\n미세 조정된 LLM인 Llama 2-Chat은 대화 사용 사례에 최적화되어
있습니다.'}]}
Response from DeepL for chunk 1: {'translations': [{'detected_source_language': 'CS', 'text': '저희\\n모델은 테스트한 대부분의 벤치마크에서 오픈소스 채팅 모델보
다 우수한 성능을 보였습니다.\\n유용성과 안전성에 대한 우리의 인간적인 평가에 따르면, 아마도 폐쇄형 소스 모델을 대체할 수 있는\\n소스 모델입니다. 미세 조정 및 안
전성에 대한 접근 방식에 대한 자세한 설명을 제공합니다.\\n개선에 대한 자세한 설명을 제공하여 커뮤니티가 우리의 작업을 기반으로 구축할 수 있도록 하고\\nLLM의 책임
있는 개발에 기여합니다.\\n∗동등한 기여, 교신저자: {tscialom, htouvron}@meta.com\\n†제2 저자\\n모든 저자의 기여도는 섹션 A.1에서 확인할 수 있습니다. 목차\\n1 소개 3\\n2 사전 훈련 5\\n2.1 사전 훈련 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5\\n2.2 교육 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5\\n2.3 Llama 2 사전 학습된 모델 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7\\n3 미세 조정 8\\n3.1 감독 미세 조정(SFT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9\\n3.2 인간 피드백을
이용한 강화 학습(RLHF) . . . . . . . . . . . . . . . . . . . . . 10\\n3.3 다중 턴 일관성을 위한 시스템 메시지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16\\n3.4 RLHF 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17\\n4 안전 20\\n4.1 사전 교육 시 안전 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20\\n4.2 안전 미세 조정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23\\n4.3 레드 팀 . . . . . . . . . . . . . . . . . . . . . . . .'}]}
Response from DeepL for chunk 2: {'translations': [{'detected_source_language': 'CS', 'text': '. . . . . . . . . . . . . . . . . . . . . . . 28\\n4.4 라마 2-챗
의 안전성 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29\\n5 토론 32\\n5.1 학습 및 관찰 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32\\n5.2 제한 사항 및 윤리적 고려 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34\\n5.3 책임 있는 릴리
스 전략 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35\\n6 관련 작업 35\\n7 결론 36\\n부록 45\\nA.1 기여 . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45\\nA.2 사전 교육에 대한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46\\nA.3 미세 조정을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50\\nA.4 안전을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57\\nA.5 데이터 주석 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 71\\nA.6 데이터 세트 오염 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74\\nA.7 모델 카드 . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76\\n2 그림 1: Llama에 대한 유용성 인적 평가 결과\\n2- 다른 오픈 소스 및 폐
쇄 소스 모델과 비교\\n모델 비교. 인간 평가자들은 단일 턴과 다중 턴으로 구성된 약 4K\\n단일 및 다중 턴 프롬프트로 구성된 프롬프트에서 모델 생성을 비교했습니다.\\n
평가에 대한 95% 신뢰 구간은\\n1%와 2% 사이입니다. 자세한 내용은 섹션3.4.2를 참조하십시오.'}]}
Response from DeepL for chunk 3: {'translations': [{'detected_source_language': 'EN', 'text': '검토하는 동안\\n이러한 결과를 검토할 때, 인간의 평가는\\n프롬프트
세트, 주관성을 제한할 수 없습니다.\\n평가 지침의 제한, 개별 평가자의 주관성,\\n그리고 세대 간 비교의 본질적인 어려움이 있습니다.\\n그림 2: 상용 라이선스를 받은 기
본 앱과 그렇지 않은 앱 간의\\n상용 라이선스 기반 라인과\\n그림 2: 상용 라이선스 기본 라인과 라마 2챗 간의 도움 및 안전성 승률 비율\\n4. 인간 평가를 보완하기 위해
우리는\\n더 유능한 모델을 사용했습니다.\\n사용했습니다. 녹색은 우리의\\n모델이 더 낫다는 것을 나타냅니다. Toremove\\n동점일 경우 승/(승+패)를 사용했습니다. 모델이
응답하는 순서\\n모델 응답이 표시되는 순서\\nGPT-4에 제시되는 순서는 편향성을 완화하기 위해 무작위로 바꿨습니다.\\n1 소개\\n대규모 언어 모델(LLM)은 전문 지식이 필요
한 복잡한 추론 작업에서 뛰어난 능력을 발휘하는 인공지능 비서로 큰 가능성을 보여주었습니다.\\n프로그래밍과 같은 전문 분야를 포함하여 광범위한 분야의 전문 지식이
필요한 복잡한 추론 작업에서 탁월한\\n전문 지식을 필요로 하는 복잡한 추론 작업에 탁월한 능력을 발휘하는 AI 어시스턴트로서 가능성을 보여주었습니다. 직관적인 채팅
인터페이스를 통해 인간과의 상호 작용이 가능하기 때문에\\n채팅 인터페이스를 통해 인간과의 상호작용을 가능하게 하여 일반 대중 사이에서 빠르고 광범위하게 채택되고
있습니다.\\nMLM의 기능은 겉보기에는 간단해 보이는 교육 방법론의 특성을 고려할 때 더욱 주목할 만합니다.\\n방법론을 고려하면 더욱 그렇습니다.'}]}
Response from DeepL for chunk 4: {'translations': [{'detected_source_language': 'EN', 'text': '자동 회귀 트랜스포머는 자체 감독 데이터의 확장된 코퍼스를 통해
사전 학습됩니다,\\n그런 다음 인간 강화 학습과 같은 기술을 통해 인간의 선호도에 맞게 조정됩니다.\\n훈련 방법론은 간단하지만 높은 계산 요구 사항이 있습니다.\\nLLM의
개발을 소수의 플레이어로 제한했습니다. 사전 학습된 LLM의 공개 출시가 있었습니다.\\n(예: BLOOM(Scao 외, 2022), LLaMa-1(Touvron 외, 2023), 팔콘(Penedo 외, 2023))이 공개되었습니다.\\nGPT-3(브라운 외, 2020) 및 친칠라와 같은 폐쇄형 사전 훈련 경쟁자의 성능과 일치합니다.\\n(Hoffmann et al., 2022), 그러나 이러한 모델 중 어느
것도 폐쇄형 "제품" LLM을 대체하기에 적합하지 않습니다.\\n같은 폐쇄형 "제품" LLM을 대체할 수 없습니다. 폐쇄형 제품 LLM은 인간의 선호도에 맞춰 매우 세밀하게 조정
됩니다.\\n사용성과 안전성을 크게 향상시킵니다. 이 단계에는 상당한 비용이 소요될 수 있습니다.\\n상당한 비용이 소요될 수 있으며, 투명하지 않거나 쉽게 재현할 수 없
기 때문에\\n커뮤니티 내에서 AI 정렬 연구를 발전시키는 데 한계가 있습니다.\\n이번 작업에서는 사전 학습되고 미세 조정된 LLM 제품군인 라마 2, 라마 2, 라마 2-챗을 개
발하여 출시했습니다.\\n최대 70억 개의 파라미터로 확장된 Llama 2-Chat을 개발했습니다.'}]}
Response from DeepL for chunk 5: {'translations': [{'detected_source_language': 'EN', 'text': '일련의 유용성 및 안전성 벤치마크에서 테스트했습니다,\\n라마 2-챗
모델은 일반적으로 기존 오픈 소스 모델보다 성능이 더 우수합니다. 또한\\n적어도 우리가 수행한 인간 평가에서는 일부 비공개 소스 모델과 동등한 수준인 것으로 나타났
습니다(\\n그림1 및 3 참조). 우리는 안전 관련 데이터를 사용하여 모델의 안전성을 높이기 위한 조치를 취했습니다.\\n주석 달기 및 튜닝, 레드팀 구성 및 반복 평가 사용
등의 조치를 취했습니다. 또한,\\n이 백서는 미세 조정 방법론과 접근 방식에 대한 철저한 설명에 기여합니다.\\nLLM 안전성을 개선하는 데 기여합니다. 이러한 개방성을 통
해 커뮤니티가 미세 조정된 LLM을 재현하고\\n해당 모델의 안전성을 지속적으로 개선하여 보다 책임감 있는 LLM 개발의 토대를 마련할 수 있기를 바랍니다.\\n저희는 라마 2와 라마 2-챗을 개발하는 동안 다음과 같은 새로운 관찰을 했습니다.\\n도구 사용의 출현과 지식의 시간적 조직화.\\n3 그림 3: 다른 오픈 소스 및 폐쇄 소스 모델과 비교한
라마 2-Chat의 안전성 인적 평가 결과\\n소스 모델. 인간 평가자는 모델 생성에 대해 약 2,000개의 적대적 프롬프트에 대해 안전 위반을 판단했습니다.\\n단일 및 다중 턴
프롬프트로 구성된 프롬프트에서 모델 생성의 안전 위반 여부를 판단했습니다. 자세한 내용은 섹션 4.4에서 확인할 수 있습니다.'}]}
Response from DeepL for chunk 6: {'translations': [{'detected_source_language': 'EN', 'text': '그것은\\n안전성에 대한 평가에 내재된 편견에 주의하는 것이 중요합
니다.\\n프롬프트 세트, 검토 지침의 주관성 및 개별 평가자의 주관성을 제한하는 것이 중요합니다. 또한, 이러한\\n안전성 평가는 라마에 편향될 가능성이 있는 콘텐츠 표
준을 사용하여 수행됩니다.\\n2-챗 모델.\\n당사는 연구 및 상업적 사용을 위해 다음 모델을 일반 대중에게 공개합니다‡:\\n1. 공개적으로 사용 가능한 새로운 데이터를 혼합
하여 학습한 Llama 1의 업데이트 버전인 Llama 2. 또한\\n사전 훈련 코퍼스의 크기를 40% 늘리고, 모델의 컨텍스트 길이를 두 배로 늘렸습니다.\\n그룹화된 쿼리주의를 채택
했습니다(Ainslieetal., 2023). 라마 2의 착용자 릴리스 버전은 다음과 같습니다.\\n7B, 13B 및 70B 매개변수. 우리는 이 논문에서 보고된 34B 변종도 훈련했지만\\n하지만
아직 공개하지 않았습니다.§\\n2. 대화 사용 사례에 최적화된 Llama 2의 미세 조정 버전인 Llama 2-Chat. 이 모델의\\n7B, 13B, 70B 매개변수가 포함된 이 모델의 변형도 출
시합니다.\\n저희는 이번 공개 출시가 사회에 도움이 될 것이라고 믿습니다. 모든 LLM과 마찬가지로,\\n라마 2는 사용 시 잠재적 위험을 수반하는 새로운 기술입니다(벤더
외., 2021b; 바이딩거 외., 2021;\\n솔라이마넷 외.,2023). 현재까지 수행된 테스트는 영어로 진행되었으며 모든 시나리오를 포함하지 않았거나 포함할 수 없었습니다.\\n모
든 시나리오를 다루지 못했습니다.'}]}
Response from DeepL for chunk 7: {'translations': [{'detected_source_language': 'EN', 'text': '따라서 개발자는 Llama 2-Chat의 애플리케이션을 배포하기 전에 다음
과 같이 수행해야 합니다.\\n특정 애플리케이션 소프트웨어 모델에 맞는 안전 테스트 및 튜닝을 수행해야 합니다. 당사는 책임감 있는 사용\\n가이드 및 코드 예제를 제공하
여 라마 2 및 라마 2-Chat의 안전한 배포를 지원합니다. 자세한 내용은\\n책임 있는 릴리스 전략에 대한 자세한 내용은 섹션 5.3에서 확인할 수 있습니다.\\n이 백서의 나머
지 부분에서는 사전 교육 방법론(섹션 2), 미세 조정 방법론\\n(섹션 3), 모델 안전에 대한 접근 방식 (섹션 4), 주요 관찰 및 통찰력 (섹션 5), 관련 관련 작업\\n작업 (섹
션 6) 및 결론 (섹션 7).\\n‡<https://ai.meta.com/resources/models-and-libraries/llama/\\n§충분한> 레드팀을 구성할 시간이 부족하여 34B 모델의 출시를 연기하고 있습니
다.\\n¶<https://ai.meta.com/llama\\n‖https://github.com/facebookresearch/llama\\n4> 그림4: 라마2-챗의 훈련: 이 과정은 공개적으로 사용 가능한 온라인 소스를 사용하여
라마2의 사전 훈련으로 시작됩니다.\\n공개적으로 사용 가능한 온라인 소스를 사용하여 시작됩니다. 그 후, 감시 미세 조정의 적용을 통해 초기 버전의 라마 2 챗을 생성합
니다.\\n를 적용하여 초기 버전을 만듭니다.'}]}
Response from DeepL for chunk 8: {'translations': [{'detected_source_language': 'EN', 'text': '그 후, 모델은 강화 학습을 사용하여 반복적으로 개선됩니다.\\n(RLHF) 방법론, 특히 거부 샘플링 및 근거리 정책 최적화(PPO)를 통해 모델을 반복적으로 개선합니다.\\n최적화를 통해 반복적으로 모델링 데이터를 축적하는 것이 중요합니다.\\n모델 개선과 병행하여 반복적인 보상 모델 데이터를 축적하는 것은 보상 모델이 배포 범위 내에서 유지되도록 하는 데 매우 중요합니다.\\n2 사전 교육\\n새로운 라마 2모
델 제품군을 생성하기 위해 웹은 투브로네탈에 설명된 사전 학습 접근법을 사용합니다.\\n(2023)에 설명된 사전 학습 접근법을 사용했지만, 성능을 개선하기 위해 몇 가지
변경 사항을 적용했습니다.\\n구체적으로, 더 강력한 데이터 분석을 수행하고, 데이터 믹스를 업데이트하고, 총 40% 더 많은 토큰을 학습시키고\\n토큰을 학습하고, 컨텍스
트 길이를 두 배로 늘리고, 그룹화된 쿼리 주의(GQA)를 사용해 추론 확장성을 개선했습니다.\\n를 개선했습니다. 표 1은 새로운 라마 2 모델과 라마 1 모델의 속성을 비교
한 것입니다.\\n2.1 사전 훈련 데이터\\n훈련 코퍼스에는 공개적으로 사용 가능한 소스에서 가져온 새로운 데이터 조합이 포함되어 있으며, 여기에는 다음과 같은 데이터는
포함되지 않습니다.\\n데이터는 포함되지 않습니다. 저희는 대량의 개인 정보를 포함하는 것으로 알려진 사이트에서\\n대량의 개인 정보를 포함하고 있는 것으로 알려져 있
습니다.'}]}
Response from DeepL for chunk 9: {'translations': [{'detected_source_language': 'EN', 'text': '2조 개에 달하는 데이터 토큰을 활용하여\\n좋은 성능-비용 절충을 제
공하고, 최대한 많은 실제 소스를 업샘플링하여\\n지식을 늘리고 환각을 완화합니다.\\n우리는 다양한 사전 교육을 수행하여 사용자가 모델의 잠재적인\\n잠재력을 더 잘 이
해할 수 있도록 다양한 교육을 실시했으며, 그 결과는 섹션 4.1에서 확인할 수 있습니다.\\n2.2 교육 세부 사항\\n저희는 대부분의 사전 훈련 설정과 모델 아키텍처를 Llama 1 에서 채택했습니다. 우리는 표준\\n트랜스포머 아키텍처(Vaswani et al., 2017)를 사용하고, RMSNorm을 사용하여 사전 정규화를 적용하고(Zhang and\\nSennrich, 2019),
SwiGLU 활성화 기능(Shazeer, 2020) 및 회전 위치 임베딩을 사용합니다.\\n(RoPE, Su et al. 2022). Llama 1과의 주요 아키텍처 차이점은 다음과 같습니다. 컨텍스트 길이
증가\\n및 그룹화된 쿼리 주의(GQA)를 포함하며, 부록 섹션 A.2.1에서 각 차이점을 자세히 설명합니다.\\n제거 실험을 통해 그 중요성을 설명합니다.\\n하이퍼파라미터. β1=
0.9, β2= 0.9, β3= 0.9, β4= 0.9, β5= 0.9, β6= 0.9, β7= 0.9로 설정한 AdamW 옵티마이저를 사용하여 훈련했습니다.\\n0.9, β2= 0.95,eps= 10-5. 코사인 학습 속도 스케줄
을 사용하며, 워밍업은 2000단계, 감쇠는\\n최종 학습률은 최대 학습률의 10%로 평가합니다. 0.1의 가중치 감쇠와 1.0의 그라데이션 클리핑(\\n1.0을 사용했습니다. 그림 5
(a)는 이러한 하이퍼파라미터를 사용한 라마 2의 훈련 손실을 보여줍니다.\\n5'}]}
라마 2: 오픈 파운데이션과 미세 조정된 채팅 모델
휴고 투브론∗루이 마틴†케빈 스톤†
피터 알버트 암자드 알마하이리 야스민 바베이 니콜라이 바슬리코프 수미야 바트라
프라즈왈 바르가바 슈루티 보살레 댄 비켈 루카스 블레처 크리스티안 칸톤 페러 모야 첸
기욤 쿠쿠룰 데이비드 에시오부 주드 페르난데스 제레미 푸 웬인 푸 브라이언 풀러
신시아 가오 베다누 고스와미 나만 고얄 앤서니 하츠혼 사가르 호세이니 루이 호우
하칸 이난 마르신 카르다스 빅토르 케르케즈 마디안 카브사 이사벨 클로우만 아르템 코레네프
푸닛 싱 쿠라 마리-안 라쇼 티보 라브릴 제냐 리 다이애나 리스코비치
잉하이 루 유닝 마오 자비에 마르티네 토도르 미하일로프 푸쉬카르 미쉬라
이고르 몰리보그 이신 니에 앤드류 폴튼 제레미 라이젠스타인 라시 룽타 칼리얀 살라디
앨런 쉘튼 루안 실바 에릭 마이클 스미스 란잔 수브라마니안 샤오칭 엘렌 탄 빈 탕
로스 테일러 아디나 윌리엄스 지안 시앙 콴 푸신 쉬 정 얀 일리얀 자로프 유첸 장
안젤라 판 멜라니 캄바두르 샤란 나랑 오렐리엔 로드리게스 로버트 스토닉
세르게이 에두노프 토마스 시알롬∗
GenAI, 메타
요약
이 작업에서는 사전 학습된 미세 조정된 대규모 언어 모델(LLM)의 모음인 70억 개에서 700억 개까지의 LLM을 다루고 있습니다.
미세 조정된 LLM인 Llama 2-Chat은 대화 사용 사례에 최적화되어 있습니다.
저희 모델은 대부분의 벤치마크 테스트에서 오픈소스 채팅 모델보다 우수한 성능을 보였습니다. 우리의 인간적인 평가에 따르면, 유용성과 안전성 측면에서 폐쇄형 소스
모델을 대체할 수 있는 소스 모델입니다. 미세 조정 및 안전성에 대한 접근 방식에 대해 자세한 설명을 제공하며, 개선에 대한 자세한 설명을 통해 커뮤니티가 우리의 작
업을 기반으로 구축할 수 있도록 하고 LLM의 책임 있는 개발에 기여합니다. 동등한 기여, 교신저자: {tscialom, htouvron}@meta.com. 제2 저자의 기여도는 섹션 A.1에서
확인할 수 있습니다.
목차
1. 소개 3
2. 사전 훈련 5
2.1 사전 훈련 데이터 5
2.2 교육 세부 정보 5
2.3 Llama 2 사전 학습된 모델 평가 7
3. 미세 조정 8
3.1 감독 미세 조정(SFT) 9
3.2 인간 피드백을 이용한 강화 학습(RLHF) 10
3.3 다중 턴 일관성을 위한 시스템 메시지 16
3.4 RLHF 결과 17
4. 안전 20
4.1 사전 교육 시 안전 20
4.2 안전 미세 조정 23
4.3 레드 팀
. . . . . . . . . . . . . . . . . . . . . . . 28
4.4 라마 2-챗의 안전성 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 토론 32
5.1 학습 및 관찰 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 제한 사항 및 윤리적 고려 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3 책임 있는 릴리스 전략 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6 관련 작업 35
7 결론 36
부록 45
A.1 기여 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A.2 사전 교육에 대한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.3 미세 조정을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
A.4 안전을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
A.5 데이터 주석 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.6 데이터 세트 오염 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.7 모델 카드 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2 그림 1: Llama에 대한 유용성 인적 평가 결과
2- 다른 오픈 소스 및 폐쇄 소스 모델과 비교
모델 비교. 인간 평가자들은 단일 턴과 다중 턴으로 구성된 약 4K
단일 및 다중 턴 프롬프트로 구성된 프롬프트에서 모델 생성을 비교했습니다.
평가에 대한 95% 신뢰 구간은
1%와 2% 사이입니다. 자세한 내용은 섹션 3.4.2를 참조하십시오.
검토하는 동안, 이러한 결과를 검토할 때 인간의 평가는 프롬프트 세트에 제한을 둘 수 없습니다. 평가 지침의 제한, 개별 평가자의 주관성, 그리고 세대 간 비교의 본질
적인 어려움이 있습니다. 그림 2는 상용 라이선스를 받은 기본 앱과 그렇지 않은 앱 간의 상용 라이선스 기반 라인을 보여줍니다. 그림 2는 또한 상용 라이선스 기반 라인
과 라마 2챗 간의 도움 및 안전성 승률 비율을 보여줍니다. 인간 평가를 보완하기 위해 우리는 더 유능한 모델을 사용했습니다. 녹색은 우리의 모델이 더 낫다는 것을 나
타냅니다. 동점일 경우 승/(승+패)를 사용했습니다. 모델이 응답하는 순서와 모델 응답이 표시되는 순서는 GPT-4에 제시되는 순서를 무작위로 바꿔 편향성을 완화하기 위
해 조정했습니다.
1. 소개
대규모 언어 모델(LLM)은 전문 지식이 필요한 복잡한 추론 작업에서 뛰어난 능력을 발휘하는 인공지능 비서로 큰 가능성을 보여주었습니다. 프로그래밍과 같은 전문 분야
를 포함하여 광범위한 분야의 전문 지식이 필요한 복잡한 추론 작업에서 탁월한 능력을 발휘하는 AI 어시스턴트로서 가능성을 보여주었습니다. 직관적인 채팅 인터페이스
를 통해 인간과의 상호 작용이 가능하기 때문에 일반 대중 사이에서 빠르고 광범위하게 채택되고 있습니다. MLM의 기능은 겉보기에는 간단해 보이는 교육 방법론의 특성을
고려할 때 더욱 주목할 만합니다. 방법론을 고려하면 더욱 그렇습니다.
자동 회귀 트랜스포머는 자체 감독 데이터의 확장된 코퍼스를 통해 사전 학습됩니다. 그런 다음 인간 강화 학습과 같은 기술을 통해 인간의 선호도에 맞게 조정됩니다. 훈
련 방법론은 간단하지만 높은 계산 요구 사항이 있습니다. LLM의 개발을 소수의 플레이어로 제한했습니다. 사전 학습된 LLM의 공개 출시가 있었습니다. (예: BLOOM(Scao
외, 2022), LLaMa-1(Touvron 외, 2023), 팔콘(Penedo 외, 2023))이 공개되었습니다. GPT-3(브라운 외, 2020) 및 친칠라와 같은 폐쇄형 사전 훈련 경쟁자의 성능과 일치합
니다. (Hoffmann et al., 2022), 그러나 이러한 모델 중 어느 것도 폐쇄형 "제품" LLM을 대체하기에 적합하지 않습니다. 같은 폐쇄형 "제품" LLM을 대체할 수 없습니다.
폐쇄형 제품 LLM은 인간의 선호도에 맞춰 매우 세밀하게 조정됩니다. 사용성과 안전성을 크게 향상시킵니다. 이 단계에는 상당한 비용이 소요될 수 있습니다. 상당한 비용
이 소요될 수 있으며, 투명하지 않거나 쉽게 재현할 수 없기 때문에 커뮤니티 내에서 AI 정렬 연구를 발전시키는 데 한계가 있습니다. 이번 작업에서는 사전 학습되고 미
세 조정된 LLM 제품군인 라마 2, 라마 2, 라마 2-챗을 개발하여 출시했습니다. 최대 70억 개의 파라미터로 확장된 Llama 2-Chat을 개발했습니다.
일련의 유용성 및 안전성 벤치마크에서 테스트했습니다.
라마 2-챗 모델은 일반적으로 기존 오픈 소스 모델보다 성능이 더 우수합니다. 또한,
적어도 우리가 수행한 인간 평가에서는 일부 비공개 소스 모델과 동등한 수준인 것으로 나타났습니다(그림 1 및 3 참조). 우리는 안전 관련 데이터를 사용하여 모델의 안
전성을 높이기 위한 조치를 취했습니다.
주석 달기 및 튜닝, 레드팀 구성 및 반복 평가 사용 등의 조치를 취했습니다. 또한,
이 백서는 미세 조정 방법론과 접근 방식에 대한 철저한 설명에 기여합니다.
LLM 안전성을 개선하는 데 기여합니다. 이러한 개방성을 통해 커뮤니티가 미세 조정된 LLM을 재현하고
해당 모델의 안전성을 지속적으로 개선하여 보다 책임감 있는 LLM 개발의 토대를 마련할 수 있기를 바랍니다.
저희는 라마 2와 라마 2-챗을 개발하는 동안 다음과 같은 새로운 관찰을 했습니다.
도구 사용의 출현과 지식의 시간적 조직화.
그림 3: 다른 오픈 소스 및 폐쇄 소스 모델과 비교한 라마 2-챗의 안전성 인적 평가 결과
소스 모델. 인간 평가자는 모델 생성에 대해 약 2,000개의 적대적 프롬프트에 대해 안전 위반을 판단했습니다.
단일 및 다중 턴 프롬프트로 구성된 프롬프트에서 모델 생성의 안전 위반 여부를 판단했습니다. 자세한 내용은 섹션 4.4에서 확인할 수 있습니다.
그것은
안전성에 대한 평가에 내재된 편견에 주의하는 것이 중요합니다.
프롬프트 세트, 검토 지침의 주관성 및 개별 평가자의 주관성을 제한하는 것이 중요합니다. 또한, 이러한
안전성 평가는 라마에 편향될 가능성이 있는 콘텐츠 표준을 사용하여 수행됩니다.
2-챗 모델.
당사는 연구 및 상업적 사용을 위해 다음 모델을 일반 대중에게 공개합니다‡:
1. 공개적으로 사용 가능한 새로운 데이터를 혼합하여 학습한 Llama 1의 업데이트 버전인 Llama 2. 또한
사전 훈련 코퍼스의 크기를 40% 늘리고, 모델의 컨텍스트 길이를 두 배로 늘렸습니다.
그룹화된 쿼리주의를 채택했습니다(Ainslieetal., 2023). 라마 2의 착용자 릴리스 버전은 다음과 같습니다.
7B, 13B 및 70B 매개변수. 우리는 이 논문에서 보고된 34B 변종도 훈련했지만
하지만 아직 공개하지 않았습니다.§
2. 대화 사용 사례에 최적화된 Llama 2의 미세 조정 버전인 Llama 2-Chat. 이 모델의
7B, 13B, 70B 매개변수가 포함된 이 모델의 변형도 출시합니다.
저희는 이번 공개 출시가 사회에 도움이 될 것이라고 믿습니다. 모든 LLM과 마찬가지로,
라마 2는 사용 시 잠재적 위험을 수반하는 새로운 기술입니다(벤더 외., 2021b; 바이딩거 외., 2021;
솔라이마넷 외.,2023). 현재까지 수행된 테스트는 영어로 진행되었으며 모든 시나리오를 포함하지 않았거나 포함할 수 없었습니다.
모든 시나리오를 다루지 못했습니다.
따라서 Llama 2-Chat 애플리케이션을 배포하기 전에 개발자는 다음과 같은 작업을 수행해야 합니다.
특정 애플리케이션 소프트웨어 모델에 맞는 안전 테스트 및 튜닝을 수행해야 합니다. 당사는 책임감 있는 사용자를 위해 안전한 배포를 지원하기 위해 가이드와 코드 예제
를 제공합니다. 자세한 내용은 책임 있는 릴리스 전략에 대한 섹션 5.3에서 확인할 수 있습니다.
이 백서의 나머지 부분에서는 사전 교육 방법론(섹션 2), 미세 조정 방법론(섹션 3), 모델 안전에 대한 접근 방식(섹션 4), 주요 관찰 및 통찰력(섹션 5), 관련 작업(섹션
6) 및 결론(섹션 7)에 대해 다룹니다.
‡<https://ai.meta.com/resources/models-and-libraries/llama/>
§충분한 레드팀을 구성할 시간이 부족하여 34B 모델의 출시를 연기하고 있습니다.
¶<https://ai.meta.com/llama>
‖<https://github.com/facebookresearch/llama>
4 그림4: 라마2-챗의 훈련: 이 과정은 공개적으로 사용 가능한 온라인 소스를 사용하여 라마2의 사전 훈련으로 시작됩니다. 그 후, 감시 미세 조정을 통해 초기 버전의 라
마 2 챗을 생성합니다.
그 후, 모델은 강화 학습을 사용하여 반복적으로 개선됩니다. (RLHF) 방법론, 특히 거부 샘플링 및 근거리 정책 최적화(PPO)를 통해 모델을 반복적으로 개선합니다. 최적
화를 통해 모델링 데이터를 반복적으로 축적하는 것이 중요합니다. 모델 개선과 병행하여 반복적인 보상 모델 데이터를 축적하는 것은 보상 모델이 배포 범위 내에서 유지
되도록 하는 데 매우 중요합니다.
2 사전 교육
새로운 라마 2 모델 제품군을 생성하기 위해 웹은 투브로네탈에 설명된 사전 학습 접근법을 사용합니다. (2023)에 설명된 사전 학습 접근법을 사용했지만, 성능을 개선하
기 위해 몇 가지 변경 사항을 적용했습니다. 구체적으로, 더 강력한 데이터 분석을 수행하고, 데이터 믹스를 업데이트하고, 총 40% 더 많은 토큰을 학습시키고, 컨텍스트
길이를 두 배로 늘리고, 그룹화된 쿼리 주의(GQA)를 사용해 추론 확장성을 개선했습니다. 표 1은 새로운 라마 2 모델과 라마 1 모델의 속성을 비교한 것입니다.
2.1 사전 훈련 데이터
훈련 코퍼스에는 공개적으로 사용 가능한 소스에서 가져온 새로운 데이터 조합이 포함되어 있으며, 여기에는 다음과 같은 데이터는 포함되지 않습니다. 대량의 개인 정보
를 포함하는 사이트에서 가져온 데이터는 포함되지 않습니다.
2조 개에 달하는 데이터 토큰을 활용하여
좋은 성능-비용 절충을 제공하고, 최대한 많은 실제 소스를 업샘플링하여
지식을 늘리고 환각을 완화합니다.
우리는 다양한 사전 교육을 수행하여 사용자가 모델의 잠재적인
잠재력을 더 잘 이해할 수 있도록 다양한 교육을 실시했으며, 그 결과는 섹션 4.1에서 확인할 수 있습니다.
2.2 교육 세부 사항
저희는 대부분의 사전 훈련 설정과 모델 아키텍처를 Llama 1에서 채택했습니다. 우리는 표준
트랜스포머 아키텍처(Vaswani et al., 2017)를 사용하고, RMSNorm을 사용하여 사전 정규화를 적용하고(Zhang and
Sennrich, 2019), SwiGLU 활성화 기능(Shazeer, 2020) 및 회전 위치 임베딩을 사용합니다.
(RoPE, Su et al. 2022). Llama 1과의 주요 아키텍처 차이점은 다음과 같습니다. 컨텍스트 길이 증가
및 그룹화된 쿼리 주의(GQA)를 포함하며, 부록 섹션 A.2.1에서 각 차이점을 자세히 설명합니다.
제거 실험을 통해 그 중요성을 설명합니다.
하이퍼파라미터. β1= 0.9, β2= 0.9, β3= 0.9, β4= 0.9, β5= 0.9, β6= 0.9, β7= 0.9로 설정한 AdamW 옵티마이저를 사용하여 훈련했습니다.
0.9, β2= 0.95,eps= 10-5. 코사인 학습 속도 스케줄을 사용하며, 워밍업은 2000단계, 감쇠는
최종 학습률은 최대 학습률의 10%로 평가합니다. 0.1의 가중치 감쇠와 1.0의 그라데이션 클리핑(
1.0을 사용했습니다. 그림 5 (a)는 이러한 하이퍼파라미터를 사용한 Llama 2의 훈련 손실을 보여줍니다.
['라마 2: 오픈 파운데이션과 미세 조정된 채팅 모델\\n휴고 투브론∗루이 마틴†케빈 스톤†\\n피터 알버트 암자드 알마하이리 야스민 바베이 니콜라이 바슬리코프 수미야 바
트라\\n프라즈왈 바르가바 슈루티 보살레 댄 비켈 루카스 블레처 크리스티안 칸톤 페러 모야 첸\\n기욤 쿠쿠룰 데이비드 에시오부 주드 페르난데스 제레미 푸 웬인 푸 브라
이언 풀러\\n신시아 가오 베다누 고스와미 나만 고얄 앤서니 하츠혼 사가르 호세이니 루이 호우\\n하칸 이난 마르신 카르다스 빅토르 케르케즈 마디안 카브사 이사벨 클로우
만 아르템 코레네프\\n푸닛 싱 쿠라 마리-안 라쇼 티보 라브릴 제냐 리 다이애나 리스코비치\\n잉하이 루 유닝 마오 자비에 마르티네 토도르 미하일로프 푸쉬카르 미쉬라\\n
이고르 몰리보그 이신 니에 앤드류 폴튼 제레미 라이젠스타인 라시 룽타 칼리얀 살라디\\n앨런 쉘튼 루안 실바 에릭 마이클 스미스 란잔 수브라마니안 샤오칭 엘렌 탄 빈
탕\\n로스 테일러 아디나 윌리엄스 지안 시앙 콴 푸신 쉬 정 얀 일리얀 자로프 유첸 장\\n안젤라 판 멜라니 캄바두르 샤란 나랑 오렐리엔 로드리게스 로버트 스토닉\\n세르게
이 에두노프 토마스 시알롬∗\\nGenAI, 메타\\n요약\\n이 작업에서는 사전 학습된 미세 조정된 대규모 언어 모델(LLM)의 모음인 70억 개에서 700억 개까지의 LLM을 다루고 있
습니다.\\n미세 조정된 LLM인 Llama 2-Chat은 대화 사용 사례에 최적화되어 있습니다.', '저희 모델은 대부분의 벤치마크 테스트에서 오픈소스 채팅 모델보다 우수한 성능
을 보였습니다. 우리의 인간적인 평가에 따르면, 유용성과 안전성 측면에서 폐쇄형 소스 모델을 대체할 수 있는 소스 모델입니다. 미세 조정 및 안전성에 대한 접근 방식
에 대해 자세한 설명을 제공하며, 개선에 대한 자세한 설명을 통해 커뮤니티가 우리의 작업을 기반으로 구축할 수 있도록 하고 LLM의 책임 있는 개발에 기여합니다. 동등
한 기여, 교신저자: {tscialom, htouvron}@meta.com. 제2 저자의 기여도는 섹션 A.1에서 확인할 수 있습니다.\\n\\n목차\\n1. 소개 3\\n2. 사전 훈련 5\\n 2.1 사전 훈련 데
이터 5\\n 2.2 교육 세부 정보 5\\n 2.3 Llama 2 사전 학습된 모델 평가 7\\n3. 미세 조정 8\\n 3.1 감독 미세 조정(SFT) 9\\n 3.2 인간 피드백을 이용한 강화 학습(RLHF) 10\\n 3.3 다중 턴 일관성을 위한 시스템 메시지 16\\n 3.4 RLHF 결과 17\\n4. 안전 20\\n 4.1 사전 교육 시 안전 20\\n 4.2 안전 미세 조정 23\\n 4.3 레드 팀', '. . . . . . . . . . . . . . . . . . . . . . . 28\\n4.4 라마 2-챗의 안전성 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29\\n5 토론 32\\n5.1 학습 및 관찰 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32\\n5.2 제한 사항 및 윤리적 고려 사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34\\n5.3 책임 있는 릴리스 전략 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . 35\\n6 관련 작업 35\\n7 결론 36\\n부록 45\\nA.1 기여 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45\\nA.2 사전
교육에 대한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46\\nA.3 미세 조정을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50\\nA.4 안전을 위한 추가 세부 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57\\nA.5 데이터 주석 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71\\nA.6 데이터 세트 오염 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74\\nA.7 모델 카드 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 76\\n2 그림 1: Llama에 대한 유용성 인적 평가 결과\\n2- 다른 오픈 소스 및 폐쇄 소스 모델과 비교\\n모델 비교. 인간 평가자들은 단일 턴과 다중 턴으로 구
성된 약 4K\\n단일 및 다중 턴 프롬프트로 구성된 프롬프트에서 모델 생성을 비교했습니다.\\n평가에 대한 95% 신뢰 구간은\\n1%와 2% 사이입니다. 자세한 내용은 섹션 3.4.2를 참조하십시오.', '검토하는 동안, 이러한 결과를 검토할 때 인간의 평가는 프롬프트 세트에 제한을 둘 수 없습니다. 평가 지침의 제한, 개별 평가자의 주관성, 그리고
세대 간 비교의 본질적인 어려움이 있습니다. 그림 2는 상용 라이선스를 받은 기본 앱과 그렇지 않은 앱 간의 상용 라이선스 기반 라인을 보여줍니다. 그림 2는 또한 상용
라이선스 기반 라인과 라마 2챗 간의 도움 및 안전성 승률 비율을 보여줍니다. 인간 평가를 보완하기 위해 우리는 더 유능한 모델을 사용했습니다. 녹색은 우리의 모델이
더 낫다는 것을 나타냅니다. 동점일 경우 승/(승+패)를 사용했습니다. 모델이 응답하는 순서와 모델 응답이 표시되는 순서는 GPT-4에 제시되는 순서를 무작위로 바꿔 편
향성을 완화하기 위해 조정했습니다.\\n\\n1. 소개\\n대규모 언어 모델(LLM)은 전문 지식이 필요한 복잡한 추론 작업에서 뛰어난 능력을 발휘하는 인공지능 비서로 큰 가능성
을 보여주었습니다. 프로그래밍과 같은 전문 분야를 포함하여 광범위한 분야의 전문 지식이 필요한 복잡한 추론 작업에서 탁월한 능력을 발휘하는 AI 어시스턴트로서 가능
성을 보여주었습니다. 직관적인 채팅 인터페이스를 통해 인간과의 상호 작용이 가능하기 때문에 일반 대중 사이에서 빠르고 광범위하게 채택되고 있습니다. MLM의 기능은
겉보기에는 간단해 보이는 교육 방법론의 특성을 고려할 때 더욱 주목할 만합니다. 방법론을 고려하면 더욱 그렇습니다.', '자동 회귀 트랜스포머는 자체 감독 데이터의
확장된 코퍼스를 통해 사전 학습됩니다. 그런 다음 인간 강화 학습과 같은 기술을 통해 인간의 선호도에 맞게 조정됩니다. 훈련 방법론은 간단하지만 높은 계산 요구 사항
이 있습니다. LLM의 개발을 소수의 플레이어로 제한했습니다. 사전 학습된 LLM의 공개 출시가 있었습니다. (예: BLOOM(Scao 외, 2022), LLaMa-1(Touvron 외, 2023), 팔콘(Penedo 외, 2023))이 공개되었습니다. GPT-3(브라운 외, 2020) 및 친칠라와 같은 폐쇄형 사전 훈련 경쟁자의 성능과 일치합니다. (Hoffmann et al., 2022), 그러나 이러한
모델 중 어느 것도 폐쇄형 "제품" LLM을 대체하기에 적합하지 않습니다. 같은 폐쇄형 "제품" LLM을 대체할 수 없습니다. 폐쇄형 제품 LLM은 인간의 선호도에 맞춰 매우
세밀하게 조정됩니다. 사용성과 안전성을 크게 향상시킵니다. 이 단계에는 상당한 비용이 소요될 수 있습니다. 상당한 비용이 소요될 수 있으며, 투명하지 않거나 쉽게 재
현할 수 없기 때문에 커뮤니티 내에서 AI 정렬 연구를 발전시키는 데 한계가 있습니다. 이번 작업에서는 사전 학습되고 미세 조정된 LLM 제품군인 라마 2, 라마 2, 라마 2-챗을 개발하여 출시했습니다. 최대 70억 개의 파라미터로 확장된 Llama 2-Chat을 개발했습니다.', '일련의 유용성 및 안전성 벤치마크에서 테스트했습니다.\\n라마 2-챗
모델은 일반적으로 기존 오픈 소스 모델보다 성능이 더 우수합니다. 또한,\\n적어도 우리가 수행한 인간 평가에서는 일부 비공개 소스 모델과 동등한 수준인 것으로 나타났
습니다(그림 1 및 3 참조). 우리는 안전 관련 데이터를 사용하여 모델의 안전성을 높이기 위한 조치를 취했습니다.\\n주석 달기 및 튜닝, 레드팀 구성 및 반복 평가 사용
등의 조치를 취했습니다. 또한,\\n이 백서는 미세 조정 방법론과 접근 방식에 대한 철저한 설명에 기여합니다.\\nLLM 안전성을 개선하는 데 기여합니다. 이러한 개방성을 통
해 커뮤니티가 미세 조정된 LLM을 재현하고\\n해당 모델의 안전성을 지속적으로 개선하여 보다 책임감 있는 LLM 개발의 토대를 마련할 수 있기를 바랍니다.\\n저희는 라마 2와 라마 2-챗을 개발하는 동안 다음과 같은 새로운 관찰을 했습니다.\\n도구 사용의 출현과 지식의 시간적 조직화.\\n그림 3: 다른 오픈 소스 및 폐쇄 소스 모델과 비교한
라마 2-챗의 안전성 인적 평가 결과\\n소스 모델. 인간 평가자는 모델 생성에 대해 약 2,000개의 적대적 프롬프트에 대해 안전 위반을 판단했습니다.\\n단일 및 다중 턴 프
롬프트로 구성된 프롬프트에서 모델 생성의 안전 위반 여부를 판단했습니다. 자세한 내용은 섹션 4.4에서 확인할 수 있습니다.', '그것은\\n안전성에 대한 평가에 내재된
편견에 주의하는 것이 중요합니다.\\n프롬프트 세트, 검토 지침의 주관성 및 개별 평가자의 주관성을 제한하는 것이 중요합니다. 또한, 이러한\\n안전성 평가는 라마에 편향
될 가능성이 있는 콘텐츠 표준을 사용하여 수행됩니다.\\n2-챗 모델.\\n당사는 연구 및 상업적 사용을 위해 다음 모델을 일반 대중에게 공개합니다‡:\\n1. 공개적으로 사용
가능한 새로운 데이터를 혼합하여 학습한 Llama 1의 업데이트 버전인 Llama 2. 또한\\n사전 훈련 코퍼스의 크기를 40% 늘리고, 모델의 컨텍스트 길이를 두 배로 늘렸습니다
.\\n그룹화된 쿼리주의를 채택했습니다(Ainslieetal., 2023). 라마 2의 착용자 릴리스 버전은 다음과 같습니다.\\n7B, 13B 및 70B 매개변수. 우리는 이 논문에서 보고된 34B 변종도 훈련했지만\\n하지만 아직 공개하지 않았습니다.§\\n2. 대화 사용 사례에 최적화된 Llama 2의 미세 조정 버전인 Llama 2-Chat. 이 모델의\\n7B, 13B, 70B 매개변수가
포함된 이 모델의 변형도 출시합니다.\\n저희는 이번 공개 출시가 사회에 도움이 될 것이라고 믿습니다. 모든 LLM과 마찬가지로,\\n라마 2는 사용 시 잠재적 위험을 수반하
는 새로운 기술입니다(벤더 외., 2021b; 바이딩거 외., 2021;\\n솔라이마넷 외.,2023). 현재까지 수행된 테스트는 영어로 진행되었으며 모든 시나리오를 포함하지 않았거나
포함할 수 없었습니다.\\n모든 시나리오를 다루지 못했습니다.', '따라서 Llama 2-Chat 애플리케이션을 배포하기 전에 개발자는 다음과 같은 작업을 수행해야 합니다.\\n특
정 애플리케이션 소프트웨어 모델에 맞는 안전 테스트 및 튜닝을 수행해야 합니다. 당사는 책임감 있는 사용자를 위해 안전한 배포를 지원하기 위해 가이드와 코드 예제를
제공합니다. 자세한 내용은 책임 있는 릴리스 전략에 대한 섹션 5.3에서 확인할 수 있습니다.\\n이 백서의 나머지 부분에서는 사전 교육 방법론(섹션 2), 미세 조정 방법
론(섹션 3), 모델 안전에 대한 접근 방식(섹션 4), 주요 관찰 및 통찰력(섹션 5), 관련 작업(섹션 6) 및 결론(섹션 7)에 대해 다룹니다.\\n‡<https://ai.meta.com/resources/models-and-libraries/llama/\\n§충분한> 레드팀을 구성할 시간이 부족하여 34B 모델의 출시를 연기하고 있습니다.\\n¶<https://ai.meta.com/llama\\n‖https://github.com/facebookresearch/llama\\n4> 그림4: 라마2-챗의 훈련: 이 과정은 공개적으로 사용 가능한 온라인 소스를 사용하여 라마2의 사전 훈련으로 시작됩니다. 그 후, 감시 미세 조정
을 통해 초기 버전의 라마 2 챗을 생성합니다.', '그 후, 모델은 강화 학습을 사용하여 반복적으로 개선됩니다. (RLHF) 방법론, 특히 거부 샘플링 및 근거리 정책 최적화(PPO)를 통해 모델을 반복적으로 개선합니다. 최적화를 통해 모델링 데이터를 반복적으로 축적하는 것이 중요합니다. 모델 개선과 병행하여 반복적인 보상 모델 데이터를
축적하는 것은 보상 모델이 배포 범위 내에서 유지되도록 하는 데 매우 중요합니다.\\n\\n2 사전 교육\\n새로운 라마 2 모델 제품군을 생성하기 위해 웹은 투브로네탈에 설명
된 사전 학습 접근법을 사용합니다. (2023)에 설명된 사전 학습 접근법을 사용했지만, 성능을 개선하기 위해 몇 가지 변경 사항을 적용했습니다. 구체적으로, 더 강력한
데이터 분석을 수행하고, 데이터 믹스를 업데이트하고, 총 40% 더 많은 토큰을 학습시키고, 컨텍스트 길이를 두 배로 늘리고, 그룹화된 쿼리 주의(GQA)를 사용해 추론 확
장성을 개선했습니다. 표 1은 새로운 라마 2 모델과 라마 1 모델의 속성을 비교한 것입니다.\\n\\n2.1 사전 훈련 데이터\\n훈련 코퍼스에는 공개적으로 사용 가능한 소스에서
가져온 새로운 데이터 조합이 포함되어 있으며, 여기에는 다음과 같은 데이터는 포함되지 않습니다. 대량의 개인 정보를 포함하는 사이트에서 가져온 데이터는 포함되지
않습니다.', '2조 개에 달하는 데이터 토큰을 활용하여\\n좋은 성능-비용 절충을 제공하고, 최대한 많은 실제 소스를 업샘플링하여\\n지식을 늘리고 환각을 완화합니다.\\n우
리는 다양한 사전 교육을 수행하여 사용자가 모델의 잠재적인\\n잠재력을 더 잘 이해할 수 있도록 다양한 교육을 실시했으며, 그 결과는 섹션 4.1에서 확인할 수 있습니다.\\n2.2 교육 세부 사항\\n저희는 대부분의 사전 훈련 설정과 모델 아키텍처를 Llama 1에서 채택했습니다. 우리는 표준\\n트랜스포머 아키텍처(Vaswani et al., 2017)를 사용
하고, RMSNorm을 사용하여 사전 정규화를 적용하고(Zhang and\\nSennrich, 2019), SwiGLU 활성화 기능(Shazeer, 2020) 및 회전 위치 임베딩을 사용합니다.\\n(RoPE, Su et al. 2022). Llama 1과의 주요 아키텍처 차이점은 다음과 같습니다. 컨텍스트 길이 증가\\n및 그룹화된 쿼리 주의(GQA)를 포함하며, 부록 섹션 A.2.1에서 각 차이점을 자세히
설명합니다.\\n제거 실험을 통해 그 중요성을 설명합니다.\\n하이퍼파라미터. β1= 0.9, β2= 0.9, β3= 0.9, β4= 0.9, β5= 0.9, β6= 0.9, β7= 0.9로 설정한 AdamW 옵티마이저
를 사용하여 훈련했습니다.\\n0.9, β2= 0.95,eps= 10-5. 코사인 학습 속도 스케줄을 사용하며, 워밍업은 2000단계, 감쇠는\\n최종 학습률은 최대 학습률의 10%로 평가합니다
. 0.1의 가중치 감쇠와 1.0의 그라데이션 클리핑(\\n1.0을 사용했습니다. 그림 5 (a)는 이러한 하이퍼파라미터를 사용한 Llama 2의 훈련 손실을 보여줍니다.']
Bringing the world closer together with a foundational multimodal model for speech translation