[질문] 혼만딥 6주차 숙제 질문 있어요

dimii · 8월 13, 2025, 1:30오후

지금 허깅페이스로 영화 리뷰 텍스트 감성 분류하기 실습을 하고있습니다.

네이버 영화 리뷰 데이터 가져오려고 했는데 다음과 같이 가져올수 없다고 해요

어떤 분은 이미 책처럼 하셨던데 저는 왜 안되는건지…

일단 지피티 도움 받아서

import pandas as pd

train_df = pd.read_table("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt")
test_df = pd.read_table("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt")


from datasets import Dataset, DatasetDict
# 변환
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# 딕셔너리처럼 묶기
nsmc = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

이렇게 변환하긴 했거든요? 이렇게 사용해도 되는건가요??

Reader · 8월 13, 2025, 10:59오후

저도 동일한 오류가 발생해서 혼만딥 코드 저장소(Github)를 확인해 보니, 해당 코드가 1주일 전에 변경된 것을 확인했습니다.
아마도 원격 스크립트를 직접 실행(trust_remote_code=True)하던 허깅페이스의 정책이 보안 강화를 위해 바뀌었기 때문인 것 같습니다.
그래서 nsmc 대신 Blpeng/nsmc와 같은 다른 저장소를 사용하게 된 것 같고, 기존 스크립트에 포함되어 있었을 것으로 생각되는 전처리 과정(불필요한 열 및 결측치 삭제)도 별도로 추가된 것 같습니다.
요약하자면, 허깅페이스 라이브러리의 최신 정책에 맞춰 데이터셋을 불러오는 방식이 원격 스크립트 실행에서 표준 파일 형식 로딩으로 바뀌었고, 전처리까지 추가된 이번 신규 코드로 변경하시면 해결되실 겁니다.

dimii · 8월 14, 2025, 6:10오전

감사합니다!!