r/LocalLLaMA•약 1개월 전•500•73

DeepSeek이 있어서 다행이야

핵심 요약

DeepSeek이 매달 혁신적인 연구와 오픈 웨이트 모델을 공개하며 AI 기술 발전을 주도하고 있다는 점을 긍정적으로 평가함.

오픈 웨이트 모델 — DeepSeek은 매달 연구 논문과 함께 베이스 모델을 즉시 공개하며 기술 발전을 견인함.
기업의 폐쇄성 — OpenAI나 Anthropic 등 주요 기업들이 모델 공개를 줄이고 연구 논문 대신 블로그 포스트로 대체하는 추세임.
기술적 기여 — 모델 자체뿐만 아니라 커널과 저장소까지 오픈 소스로 공개하여 개발자들에게 실질적인 도움을 줌.
하드웨어 제약 — 커뮤니티가 대형 모델을 직접 구축하는 데는 여전히 하드웨어적인 한계가 존재함.

다른 기업들은 서서히 오픈 웨이트에서 멀어지고 있음. 베이스 모델을 공개하지 않거나, 오픈 웨이트 배포를 늦추거나, 최상위 모델을 내놓지 않음(이건 이해가 가지만 그래도 아쉬움). 그리고 연구 결과 발표도 멈춘 것 같음(예전 Gemma나 Qwen은 모델 학습과 특성에 대한 상세한 논문이 있었는데, 지금은 블로그 포스트나 모델 카드로 대체됨).

Kimi(Kimi k2.5 베이스 모델 없음), GLM(glm 5 및 5.1 베이스 모델 없음), minimax(오픈 웨이트 지연 및 m2.7의 문제 있는 라이선스), 그리고 Qwen(Qwen 3.5 397B는 오픈 웨이트였는데 3.6은 아님)이 그런 사례임.

반면 DeepSeek은 매달 놀라운 연구 결과를 발표하고, 베이스 모델을 공개하며, 모델이 공식 출시되자마자 오픈 웨이트를 배포하고, 출시 논문을 통해 모델 학습과 아키텍처를 상세히 설명함.

그들은 이 분야에서 매우 중요하며 기술과 효율성을 앞으로 밀고 나가는 주역들임.

아쉽게도 작은 모델은 출시하지 않지만, 모든 걸 다 가질 수는 없지 않겠음?

주요 댓글

r/localllama

대부분의 유저들은 딥시크가 오픈 웨이트와 효율적인 기술 공유를 통해 AI 생태계 발전을 주도하고 있다고 높게 평가하며, 폐쇄적인 행보를 보이는 미국 빅테크 기업들과 대조적인 모습에 긍정적인 반응을 보임.

241

딥시크가 기여한 건 모델뿐만이 아님. 다들 오픈소스한 커널이랑 레포가 얼마나 도움 되는지 까먹는 듯.

130

훈련 효율 쥐어짜려고 아예 새로운 파일 시스템까지 오픈소스함. 효율성 면에선 진짜 GOAT임.

모델, 많음. 에이전트 대시를 쉼표로 바꿀 거면 간격이나 제대로 맞춰라.

-28

우리 모두가 GPT한테 답장 써달라고 할 필요는 없음. 클로드 슬롭 너무 많이 써서 차이를 모르는 거 아님?

간격 하나하나 따지고 있네 ㅋㅋㅋ 인생 좀 살아라 진짜.

괜찮음. 다른 연구소에서 훌륭한 작은 모델들(Qwen3.6, Gemma4 등) 많이 내놓고 있으니까. 우리한테 필요한 건 작은 모델 훈련시킬 좋은 대형 티처 모델인데, 최근에 GLM-5.1, Kimi-K2.5, Minimax-M2.7, Deepseek4 같은 게 쏟아져 나오잖아.

로컬 호스팅의 핵심은 지능과 효율의 한계를 돌파하는 거임. 최소한으로 최대한의 결과를 내는 게 진짜 재밌는 부분이지. DeepSeek 4는 오픈 웨이트라 추론 비용이 저렴해서, 작업 중심의 추론 과정을 뽑아내기 쉽고 이걸 게임용 그래픽카드에 들어갈 모델로 증류할 수 있음. 이게 하나의 파이프라인이고 딥시크는 그 핵심임.

OpenAI랑 Anthropic이 좋은 작은 모델을 내놔야 함. 그래야 중국 모델에서 유저랑 개발자들을 뺏어오지. 근데 걔네는 너무 근시안적임.

OpenAI는 적어도 오픈소스 모델이라도 있으니까 Anthropic보다는 나음. Anthropic은 오픈소스가 악의 근원이라고 믿는 수준임.

Anthropic 사업이랑 운영 전부 오픈소스 소프트웨어 위에 세워진 거 다 알고 있음.

CC 유출 건으로 걔네가 오픈 코드에서 가져다 쓴 거 다 뽀록났지.

OpenAI가 GPT-OSS v2 좀 내줬으면 좋겠음. 120B 모델은 나온 지 9개월이나 됐는데도 여전히 100B급에서 가장 강력하고 빠른 모델 중 하나라고 생각함.

아파치 라이선스인 Trinity large base라는 아주 좋은 베이스 모델이 있음. 399B 사이즈로 SOTA급인데 이걸 활용할 그룹이 있을지 궁금함. 허깅페이스에 고퀄 데이터셋도 널렸는데, 좋은 GPU로 이 오픈소스 재료들을 솥에 넣고 끓이면 SOTA 모델 하나 뚝딱 나오지 않을까? 그냥 뇌피셜임.

Arcee ai(Trinity 만든 애들)도 진짜 GOAT임. 오픈 웨이트에 엄청 진심인 듯.

딥시크는 작은 시스템에서도 돌아가는 모델(Deepseek-Flash)을 내놓으면서 유저들 의견을 잘 들어줌. Qwen도 자기네 상용 모델이랑 경쟁할 정도로 좋은 모델을 내놓으면서 유저들 니즈를 충족시켰고. 솔직히 다들 대단해서 API 결제해서 쓰는 중임. OpenAI가 GPT-OSS 업데이트하면 중국 스타트업들 다 끝장날 텐데, 그 점도 잊지 말아야 함.

지금 같이 볼 만한 글

r/ClaudeAI

10점 만점에 10점, 더 할 말 없음

Claude의 특정 행동 양식과 말투를 분석한 게시물에 대해 사용자들의 공감과 분석적 반응이 이어짐.

1256144

r/LocalLLaMA

google/gemma-4-12B · Hugging Face

구글의 최신 오픈 모델 Gemma 4 시리즈가 공개되었으며, 12B 모델을 포함한 다양한 크기와 멀티모달 기능을 지원합니다.

776283

r/ChatGPT

드디어 이해하는 사람이 있네.

AI를 연인이나 치료사처럼 대하는 사용자들의 반응과 이에 대한 냉소적인 의견들이 오가는 포스트입니다.

96227

커뮤니티 전체 보기