Untitled
unknown
plain_text
a year ago
1.0 kB
6
Indexable
from datasets import load_dataset
import jsonlines
dataset = load_dataset('multi_news')
print(dataset)
def save_dataset_to_jsonl(dataset, filename):
# Mở tệp JSONL để ghi
with jsonlines.open(filename, mode='w') as writer:
for split in dataset.keys():
nums = 5
if split == 'train':
nums = 10
i = 0
for entry in dataset[split]:
if i < nums:
# Tạo một đối tượng cho mỗi entry
data = {
'source_documents': entry['document'].split('\n \n'),
'summary': entry['summary'],
'label': split
}
# Ghi đối tượng vào tệp JSONL
writer.write(data)
else:
break
i += 1
# Lưu bộ dữ liệu vào tệp JSONL
save_dataset_to_jsonl(dataset, 'multinews.jsonl')Editor is loading...
Leave a Comment