Hello You can treat it as a csf file and load it from spark:
>>> df = spark.read.format("csv").option("inferSchema", "true").option("header", "true").option("sep","#").load(csv_file) >>> df.show() +--------------------+-------------------+-----------------+ | Plano|Código Beneficiário|Nome Beneficiário| +--------------------+-------------------+-----------------+ |58693 - NACIONAL ...| 65751353| Jose Silva| |58693 - NACIONAL ...| 65751388| Joana Silva| |58693 - NACIONAL ...| 65751353| Felipe Silva| |58693 - NACIONAL ...| 65751388| Julia Silva| +--------------------+-------------------+-----------------+ cat csv_file: Plano#Código Beneficiário#Nome Beneficiário 58693 - NACIONAL R COPART PJCE#065751353#Jose Silva 58693 - NACIONAL R COPART PJCE#065751388#Joana Silva 58693 - NACIONAL R COPART PJCE#065751353#Felipe Silva 58693 - NACIONAL R COPART PJCE#065751388#Julia Silva Regards On Wed, Feb 9, 2022 at 12:50 AM Danilo Sousa <danilosousa...@gmail.com> wrote: > Hi > I have to transform unstructured text to dataframe. > Could anyone please help with Scala code ? > > Dataframe need as: > > operadora filial unidade contrato empresa plano codigo_beneficiario > nome_beneficiario > > Relação de Beneficiários Ativos e Excluídos > Carteira em#27/12/2019##Todos os Beneficiários > Operadora#AMIL > Filial#SÃO PAULO#Unidade#Guarulhos > > Contrato#123456 - Test > Empresa#Test > Plano#Código Beneficiário#Nome Beneficiário > 58693 - NACIONAL R COPART PJCE#073930312#Joao Silva > 58693 - NACIONAL R COPART PJCE#073930313#Maria Silva > > Contrato#898011000 - FUNDACAO GERDAU > Empresa#FUNDACAO GERDAU > Plano#Código Beneficiário#Nome Beneficiário > 58693 - NACIONAL R COPART PJCE#065751353#Jose Silva > 58693 - NACIONAL R COPART PJCE#065751388#Joana Silva > 58693 - NACIONAL R COPART PJCE#065751353#Felipe Silva > 58693 - NACIONAL R COPART PJCE#065751388#Julia Silva > --------------------------------------------------------------------- > To unsubscribe e-mail: user-unsubscr...@spark.apache.org > >