[질문] 혼만딥 6주차 숙제 질문 있어요

지금 허깅페이스로 영화 리뷰 텍스트 감성 분류하기 실습을 하고있습니다.

네이버 영화 리뷰 데이터 가져오려고 했는데 다음과 같이 가져올수 없다고 해요

어떤 분은 이미 책처럼 하셨던데 저는 왜 안되는건지…

일단 지피티 도움 받아서

import pandas as pd

train_df = pd.read_table("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt")
test_df = pd.read_table("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt")


from datasets import Dataset, DatasetDict
# 변환
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# 딕셔너리처럼 묶기
nsmc = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

이렇게 변환하긴 했거든요? 이렇게 사용해도 되는건가요??

저도 동일한 오류가 발생해서 혼만딥 코드 저장소(Github)를 확인해 보니, 해당 코드가 1주일 전에 변경된 것을 확인했습니다.
아마도 원격 스크립트를 직접 실행(trust_remote_code=True)하던 허깅페이스의 정책이 보안 강화를 위해 바뀌었기 때문인 것 같습니다.
그래서 nsmc 대신 Blpeng/nsmc와 같은 다른 저장소를 사용하게 된 것 같고, 기존 스크립트에 포함되어 있었을 것으로 생각되는 전처리 과정(불필요한 열 및 결측치 삭제)도 별도로 추가된 것 같습니다.
요약하자면, 허깅페이스 라이브러리의 최신 정책에 맞춰 데이터셋을 불러오는 방식이 원격 스크립트 실행에서 표준 파일 형식 로딩으로 바뀌었고, 전처리까지 추가된 이번 신규 코드로 변경하시면 해결되실 겁니다.

감사합니다!!