Spaces:

mrbear1024
/

mimictalk

Build error

App Files Files Community

mimictalk / utils /commons /indexed_datasets.py

mrbear1024

init project

8eb4303 8 months ago

raw

history blame contribute delete

7.59 kB

	import pickle
	from bisect import bisect
	from copy import deepcopy
	import numpy as np
	import gzip


	def int2bytes(i: int, *, signed: bool = False) -> bytes:
	length = ((i + ((i * signed) < 0)).bit_length() + 7 + signed) // 8
	return i.to_bytes(length, byteorder='little', signed=signed)


	def bytes2int(b: bytes, *, signed: bool = False) -> int:
	return int.from_bytes(b, byteorder='little', signed=signed)


	def load_index_data(data_file):
	index_data_size = bytes2int(data_file.read(32))
	index_data = data_file.read(index_data_size)
	index_data = pickle.loads(index_data)
	data_offsets = deepcopy(index_data['offsets'])
	id2pos = deepcopy(index_data.get('id2pos', {}))
	meta = deepcopy(index_data.get('meta', {}))
	return data_offsets, id2pos, meta


	class IndexedDataset:
	def __init__(self, path, unpickle=True):
	self.path = path
	self.root_data_file = open(f"{path}.data", 'rb', buffering=-1)
	try:
	self.byte_offsets, self.id2pos, self.meta = load_index_data(self.root_data_file)
	self.data_files = [self.root_data_file]
	except:
	self.__init__old(path)
	self.meta = {}
	self.gzip = self.meta.get('gzip', False)
	if 'chunk_begin' not in self.meta:
	self.meta['chunk_begin'] = [0]
	for i in range(len(self.meta['chunk_begin'][1:])):
	self.data_files.append(open(f"{self.path}.{i + 1}.data", 'rb'))
	self.unpickle = unpickle

	def __init__old(self, path):
	self.path = path
	index_data = np.load(f"{path}.idx", allow_pickle=True).item()
	self.byte_offsets = index_data['offsets']
	self.id2pos = index_data.get('id2pos', {})
	self.data_files = [open(f"{path}.data", 'rb', buffering=-1)]

	def __getitem__(self, i):
	if self.id2pos is not None and len(self.id2pos) > 0:
	i = self.id2pos[i]
	self.check_index(i)

	# chunk_id = bisect(self.meta['chunk_begin'][1:], self.byte_offsets[i])
	# if chunk_id == 0:
	# data_file = open(f"{self.path}.data", 'rb', buffering=-1)
	# else:
	# data_file = open(f"{self.path}.{chunk_id}.data", 'rb', buffering=-1)
	# data_file.seek(self.byte_offsets[i] - self.meta['chunk_begin'][chunk_id])
	# b = data_file.read(self.byte_offsets[i + 1] - self.byte_offsets[i])
	# data_file.close()

	chunk_id = bisect(self.meta['chunk_begin'][1:], self.byte_offsets[i])
	data_file = self.data_files[chunk_id]
	data_file.seek(self.byte_offsets[i] - self.meta['chunk_begin'][chunk_id])
	b = data_file.read(self.byte_offsets[i + 1] - self.byte_offsets[i])

	unpickle = self.unpickle
	if unpickle:
	if self.gzip:
	b = gzip.decompress(b)
	item = pickle.loads(b)
	else:
	item = b
	return item

	def __del__(self):
	for data_file in self.data_files:
	data_file.close()

	def check_index(self, i):
	if i < 0 or i >= len(self.byte_offsets) - 1:
	raise IndexError('index out of range')

	def __len__(self):
	return len(self.byte_offsets) - 1

	def __iter__(self):
	self.iter_i = 0
	return self

	def __next__(self):
	if self.iter_i == len(self):
	raise StopIteration
	else:
	item = self[self.iter_i]
	self.iter_i += 1
	return item


	class IndexedDatasetBuilder:
	def __init__(self, path, append=False, max_size=1024 * 1024 * 1024 * 64,
	default_idx_size=1024 * 1024 * 16, gzip=False):
	self.path = self.root_path = path
	self.default_idx_size = default_idx_size
	if append:
	self.data_file = open(f"{path}.data", 'r+b')
	self.data_file.seek(0)
	self.byte_offsets, self.id2pos, self.meta = load_index_data(self.data_file)
	self.data_file.seek(0)
	self.data_file.write(bytes(default_idx_size))
	self.data_file.seek(self.byte_offsets[-1])
	self.gzip = self.meta['gzip']
	else:
	self.data_file = open(f"{path}.data", 'wb')
	self.data_file.seek(default_idx_size)
	self.byte_offsets = [default_idx_size]
	self.id2pos = {}
	self.meta = {}
	self.meta['chunk_begin'] = [0]
	self.gzip = self.meta['gzip'] = gzip
	self.root_data_file = self.data_file
	self.max_size = max_size
	self.data_chunk_id = 0

	def add_item(self, item, id=None, use_pickle=True):
	if self.byte_offsets[-1] > self.meta['chunk_begin'][-1] + self.max_size:
	if self.data_file != self.root_data_file:
	self.data_file.close()
	self.data_chunk_id += 1
	self.data_file = open(f"{self.path}.{self.data_chunk_id}.data", 'wb')
	self.data_file.seek(0)
	self.meta['chunk_begin'].append(self.byte_offsets[-1])
	if not use_pickle:
	s = item
	else:
	s = pickle.dumps(item)
	if self.gzip:
	s = gzip.compress(s, 1)
	bytes = self.data_file.write(s)
	if id is not None:
	self.id2pos[id] = len(self.byte_offsets) - 1
	self.byte_offsets.append(self.byte_offsets[-1] + bytes)

	def finalize(self):
	self.root_data_file.seek(0)
	s = pickle.dumps({'offsets': self.byte_offsets, 'id2pos': self.id2pos, 'meta': self.meta})
	assert len(s) < self.default_idx_size, (len(s), self.default_idx_size)
	len_bytes = int2bytes(len(s))
	self.root_data_file.write(len_bytes)
	self.root_data_file.seek(32)
	self.root_data_file.write(s)
	self.root_data_file.close()
	try:
	self.data_file.close()
	except:
	pass


	if __name__ == "__main__":
	import random
	from tqdm import tqdm

	# builder = IndexedDatasetBuilder(ds_path, append=True)
	# for i in tqdm(range(size)):
	# builder.add_item(items[i], i + size)
	# builder.finalize()
	# ds = IndexedDataset(ds_path)
	# for i in tqdm(range(1000)):
	# idx = random.randint(size, 2 * size - 1)
	# assert (ds[idx]['a'] == items[idx - size]['a']).all()
	# idx = random.randint(0, size - 1)
	# assert (ds[idx]['a'] == items[idx]['a']).all()

	ds_path = '/tmp/indexed_ds_example'
	size = 100
	items = [{"a": np.random.normal(size=[10000, 10]),
	"b": np.random.normal(size=[10000, 10])} for i in range(size)]
	builder = IndexedDatasetBuilder(ds_path, max_size=1024 * 1024 * 40)
	builder.meta['lengths'] = [1, 2, 3]
	for i in tqdm(range(size)):
	builder.add_item(pickle.dumps(items[i]), i, use_pickle=False)
	builder.finalize()
	ds = IndexedDataset(ds_path)
	assert ds.meta['lengths'] == [1, 2, 3]
	for i in tqdm(range(1000)):
	idx = random.randint(0, size - 1)
	assert (ds[idx]['a'] == items[idx]['a']).all()

	# builder = IndexedDataset2Builder(ds_path, append=True)
	# builder.meta['lengths'] = [1, 2, 3, 5, 6, 7]
	# for i in tqdm(range(size)):
	# builder.add_item(items[i], i + size)
	# builder.finalize()
	# ds = IndexedDataset2(ds_path)
	# assert ds.meta['lengths'] == [1, 2, 3, 5, 6, 7]
	# for i in tqdm(range(1000)):
	# idx = random.randint(size, 2 * size - 1)
	# assert (ds[idx]['a'] == items[idx - size]['a']).all()
	# idx = random.randint(0, size - 1)
	# assert (ds[idx]['a'] == items[idx]['a']).all()